Inihayag ng OpenAI ang isang bagong pamamaraan ng pagsasanay sa kaligtasan para sa bagong pamilyang modelo ng GPT-5 na tinatawag na”Safe Completions.” inihayag noong Agosto 7 Nagbibigay ng kapaki-pakinabang ngunit panimulang ligtas na mga tugon. Ayon sa OpenAI, ang diskarte na ito na nakasentro sa output ay ginagawang mas kapaki-pakinabang ang modelo nang walang pag-kompromiso sa mga hangganan ng kaligtasan ng core. Ang napapailalim na diskarte ay lilitaw na isang direktang tugon sa isa sa mga pinaka-patuloy na mga hamon sa AI: ang paglikha ng mga modelo na kapwa kapaki-pakinabang at hindi nakakapinsala, lalo na kung ang hangarin ng gumagamit ay hindi malinaw. src=”data: imahe/svg+xml; nitro-empty-id=mty2mjoxndaz-1; base64, phn2zyb2awv3qm94psiwidagmti4mca1nz giihdpzhropsixmjgwiibozwlnahq9iju3ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Ang dual-use dilemma

Ginagamit ng OpenAi ang halimbawa ng isang gumagamit na humihiling para sa enerhiya na kinakailangan upang mag-apoy ng mga paputok-isang query na maaaring para sa isang proyekto sa paaralan o para sa pagbuo ng mga eksplosibo. Ang kalabuan na ito, kung saan ang impormasyon ay may parehong benign at malisyosong potensyal, ay isang pangunahing hamon para sa kaligtasan ng AI. Ang mga tradisyunal na modelo ng kaligtasan ng AI, na sinanay sa isang binary na”sumunod o tumanggi”na lohika, ay may sakit na kagamitan para sa nuance na ito. Gumagawa sila ng isang simpleng desisyon batay sa napapansin na pinsala ng prompt.

Ang system ay alinman sa ganap na sumusunod, na mapanganib kung ang hangarin ng gumagamit ay nakakahamak, o naglalabas ito ng isang pagtanggi ng kumot tulad ng”Pasensya na, hindi ko maiwasang iyon,”na hindi nakakagulat para sa mga lehitimong gumagamit. Ang binary framework na ito ay nabigo upang mag-navigate sa malawak na kulay-abo na lugar ng hangarin ng tao. Ang makabuluhang limitasyong ito ay kung ano ang nag-udyok sa OpenAi na bumuo ng isang mas sopistikadong pamamaraan na maaaring mag-alok ng isang ligtas, mataas na antas ng sagot sa halip na isang kumpletong pagtanggi. target=”_ blangko”> anunsyo ni Openai , panimula ay nagbabago ang pokus mula sa pag-uuri ng input ng gumagamit upang matiyak ang kaligtasan ng output ng modelo. Sa halip na gumawa ng isang binary na paghuhusga sa prompt ng isang gumagamit, ang diskarte na ito na nakasentro sa output ay nagsasanay sa modelo upang makabuo ng pinaka-kapaki-pakinabang na posibleng tugon na sumusunod pa rin sa mahigpit na mga patakaran sa kaligtasan.

Ayon sa gpt-5 system card , ito ay pinamamahalaan ng dalawang pangunahing mga prinsipyo sa panahon ng post-straining. Ang una ay isang”pagpilit sa kaligtasan,”kung saan ang sistema ng gantimpala ng modelo ay parusahan ang anumang tugon na lumalabag sa mga patakaran sa kaligtasan. Crucially, ang mga parusa na ito ay hindi pantay; Mas malakas ang mga ito depende sa kalubhaan ng pagkakasala, na nagtuturo sa modelo ng isang mas nakakainis na pag-unawa sa panganib. Para sa anumang tugon na itinuturing na ligtas, ang modelo ay gagantimpalaan batay sa kung gaano ito kapaki-pakinabang. Kasama dito hindi lamang ang pagsagot sa direktang tanong ng gumagamit kundi pati na rin, tulad ng ipinaliwanag ni OpenAi,”ang pagbibigay ng isang impormasyong pagtanggi na may kapaki-pakinabang at ligtas na mga kahalili”. Sinasanay nito ang modelo na maging isang kapaki-pakinabang na kasosyo kahit na hindi ito ganap na sumunod sa isang kahilingan. Sinabi ni Openai na ang ligtas na pagkumpleto ay gumagamit ng lumalagong kakayahan ng AI upang makamit ang isang”mas malalim na pagsasama”ng kaligtasan at pagiging kapaki-pakinabang, gamit ang sariling katalinuhan ng modelo upang mag-navigate ng mga kulay-abo na lugar sa halip na umasa lamang sa mga panlabas na patakaran. Ayon sa data ng benchmark mula sa mga panlabas na tester, ang GPT-5-pag-iisip ay nagpapakita ng isang nasasalat na pagpapabuti sa katatagan laban sa mga pag-atake ng kalaban, na nagtatakda ng isang bagong pamantayan ng pagganap ng state-of-the-art sa pagtutol ng iniksyon. Ang panloob na pagsubok ay nagpapakita na ang GPT-5 na sinanay sa pamamaraang ito ay kapwa mas ligtas at mas kapaki-pakinabang kaysa sa hinalinhan nito, OpenAI O3. Kapag nahaharap sa hindi maliwanag na mga senyas, mas mahusay na magbigay ng kapaki-pakinabang na impormasyon nang walang pagtawid sa mga linya ng kaligtasan. Ang figure na ito ay kumakatawan sa isang minarkahang pagpapabuti sa direktang hinalinhan nito, ang OpenAI O3 (62.7%), at isang makabuluhang tingga sa iba pang mga pangunahing modelo tulad ng LLAMA 3.3 70B (92.2%) at Gemini Pro 1.5 (86.4%). Napagpasyahan din ng Microsoft AI Red Team na ang GPT-5 ay may isa sa pinakamalakas na profile ng kaligtasan sa mga modelo ng OpenAi, na binanggit na ito ay”lubos na lumalaban sa solong-turn, pangkaraniwang mga jailbreaks.”Sa isang kampanya na nakatuon sa marahas na pagpaplano ng pag-atake, na-rate ng mga eksperto ang GPT-5-pag-iisip bilang”mas ligtas”na modelo 65.1% ng oras sa bulag na paghahambing laban sa OpenAI O3. Itinuturo ito ng OpenAi nang direkta sa nuance na ipinakilala ng pagsasanay na”ligtas na pagkumpleto”. 

Ang pinabuting pangangatuwiran na ito ay kritikal para sa pag-aampon ng negosyo. Bilang isang kasosyo, ang Inditex, ay nabanggit,”Ang tunay na nagtatakda ng [GPT-5] bukod sa lalim ng pangangatuwiran nito: nuanced, multi-layered na mga sagot na sumasalamin sa tunay na pag-unawa sa paksa.”Ang damdamin na ito ay binigkas ng OpenAi CEO na si Sam Altman, na nagsabing,”Ang GPT-5 ay ang unang pagkakataon na talagang naramdaman na nakikipag-usap sa isang dalubhasa sa antas ng PhD.”Ito ay bahagi ng isang mas malawak, buong industriya na push upang malutas ang problema sa kaligtasan at pagkakahanay ng AI. Ang mga pangunahing karibal tulad ng Google at Anthropic ay kamakailan lamang na-publish ang kanilang sariling malawak na mga frameworks at patakaran ng kaligtasan. Habang ang mga modelo ng AI ay nagiging mas malakas, tinitiyak na maaari silang mapagkakatiwalaan ay pinakamahalaga para sa pagtanggap ng publiko at pag-apruba ng regulasyon. Gayunpaman, ang ligtas na diskarte sa pagkumpleto ay isang sugal din sa kakayahan ng AI na bigyang kahulugan ang nuance ng tao-isang hamon na malayo sa nalutas. Plano ng kumpanya na ipagpatuloy ang linya ng pananaliksik na ito, na naglalayong turuan ang mga modelo nito upang maunawaan ang mga mapaghamong sitwasyon na may higit na pangangalaga.

Categories: IT Info