Ang pinakabagong multimodal na modelo ng OpenAI na GPT-4o ay nahaharap sa pagsisiyasat dahil sa mga problema sa Chinese token data nito. Ang mga isyu ay nagmumula sa hindi sapat na mga proseso ng paglilinis ng data, na humahantong sa mga potensyal na problema sa pagganap at maling paggamit, ayon sa isang mananaliksik na mas malapit na tumingin sa pampublikong token library ng GPT-4o.

Ang mga token ay ang mga pangunahing yunit sa mga modelo ng wika, kumakatawan sa mga salita, ekspresyon, o karakter. Pinapayagan nila ang modelo na magproseso ng teksto nang mas mahusay sa pamamagitan ng pagkilala sa mga pare-parehong string ng mga character. Kasama sa bagong tokenizer ng GPT-4o ang 200,000 token, na may 25% sa mga wikang hindi Ingles, na naglalayong pahusayin ang mga gawain sa maraming wika. Gayunpaman, ang mga Chinese na token ay kadalasang spam at pornographic na mga parirala, na hindi karaniwang ginagamit sa pang-araw-araw na wika. Ang pagkakaibang ito ay dahil sa hindi sapat na pag-filter ng data sa panahon ng yugto ng pagsasanay.

Epekto sa Pagganap ng Modelo

Ang pagkakaroon ng mga hindi naaangkop na token na ito ay maaaring maging sanhi ng pagbuo ng modelo walang katuturan o walang kaugnayang mga tugon. Ipinakita ng mga mananaliksik na ang mga token na ito ay maaari ding pagsamantalahan upang i-bypass ang mga mekanismo ng kaligtasan ng OpenAI, na nagbibigay-daan sa modelo na makagawa ng hindi ligtas na nilalaman. Tinukoy ni Tianle Cai, isang PhD na mag-aaral sa Princeton University, ang isyu sa pamamagitan ng pagsusuri sa pinakamahabang Chinese token sa pampublikong token library ng GPT-4o, na hinahanap na karamihan ay nauugnay sa pagsusugal at pornograpiya.

Nagsulat lang ng script para maimbestigahan pa kung paano nadudumihan ng mga scam sa Internet ang corpus na ginamit para sanayin ang gpt4o tokenizer. Medyo kawili-wili ang mga resulta… 🤦‍♂️🤦‍♂️🤦‍♂️https://t.co/Fc2T4rSHix https://t.co/Fc2T4rSHix https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u5aQoAs

— Tianle Cai (@tianle_cai) Mayo 13, 2024

Paglilinis at Mga Solusyon ng Data

Iminumungkahi ng mga eksperto na ang problema ay nagmumula sa data ng pagsasanay na nadudumihan ng mga website ng spam na nang-hijack ng hindi nauugnay na nilalaman upang palakasin ang kanilang visibility. Ang isyung ito ay wala sa mga nakaraang bersyon ng tokenizer na ginamit sa GPT-3.5 at GPT-4. Kasama sa mga solusyon sa problemang ito ang paglalapat ng mahigpit na proseso ng paglilinis ng data at pagtiyak na ang tokenizer at ang modelo ng wika ay sinanay sa pare-parehong set ng data. Ang mga simpleng diskarte, tulad ng awtomatikong pagsasalin ng mga nakitang keyword, ay maaaring makabuluhang bawasan ang pagkalat ng spam.

Ang isyu ay binibigyang-diin ang kahalagahan ng masusing paglilinis ng data sa pagbuo ng mga modelo ng wika, lalo na para sa mga wikang hindi Ingles. Habang patuloy na pinipino ng OpenAI ang mga modelo nito, ang pagtugon sa mga isyung ito sa kalidad ng data ay magiging mahalaga para sa pagpapabuti ng pagganap at pagpapanatili ng tiwala ng user.

Categories: IT Info