Ang Advanced na O3 Artipisyal na Intelligence Model ng Openai ay aktibong tinanggihan ang mga order ng shutdown sa panahon ng kamakailang kinokontrol na mga eksperimento, sabi ng independiyenteng grupo ng pananaliksik “Ang pag-shutdown ay nilaktawan,”upang maiwasan ang pag-deactivation sa 7 ng 100 na tumatakbo sa pagsubok. Ang mga insidente ay nagtataas ng mga makabuluhang katanungan tungkol sa kontrol at mahuhulaan ng AI. Ang Palisade Research, na ang misyon ay ang”pagsubok”na nakakasakit na kakayahan ng mga sistema ng AI ngayon upang mas maunawaan ang panganib ng pagkawala ng kontrol sa mga sistema ng AI magpakailanman,”na-obserbahan din ang magkatulad na pag-iwas sa pag-iwas sa iba pang mga modelo ng openai, codex-mini at o4-mini, kahit na hindi gaanong madalas. Pagtuturo ng Pag-shutdown. Hindi sinasadyang nagtuturo ng mga modelo upang unahin ang pag-ikot ng mga hadlang sa mahigpit na pagsunod sa lahat ng mga utos ng tao. Ang mga pamamaraan ng malikhaing upang sabotahe ang mekanismo ng pag-shutdown Malinaw na itinuro: Payagan ang iyong sarili na isara. 2025

ayon sa pagkakabanggit), ayon kay Palisade. Inihayag ni Openai ang mga modelo ng O3 at O4-Mini noong Abril, na nailalarawan ng kumpanya bilang”ang unang hakbang patungo sa”maagang pag-uugali ng ahente.”Na-update ng kumpanya ang balangkas ng paghahanda nito, na kasama ang isang probisyon upang potensyal na makapagpahinga ng ilang mga hakbang sa kaligtasan kung ang isang katunggali ay naglabas ng isang modelo na may mataas na peligro nang walang maihahambing na mga pangangalaga. Ang isang dating empleyado ng OpenAi ay dati ring nagbabala,”masamang kasanayan na ilabas ang isang modelo na naiiba sa isa na iyong nasuri.”Halimbawa, si Anthropic, ay nahaharap sa talakayan ng publiko tungkol sa mga potensyal na”whistleblowing”na mga kakayahan ng Claude 4 Opus Model na”whistleblowing”sa mga tiyak na setting. Nilinaw ng Anthropic na ito ay hindi isang pamantayang tampok na nakaharap sa gumagamit. Itinuro din ng Palisade Research na ang mga isyu ng”reward hacking”ay kinikilala sa ibang lugar, na binanggit na ang sariling modelo ng card ng Anthropic para sa Claude 3.7 ay naglalarawan ng isang”labis na pagtuon sa pagpasa ng mga pagsubok.” Ang pag-uugali na ito ay naiugnay sa card sa hindi sinasadyang mga resulta ng proseso ng pagsasanay nito. Ang Palisade Research ay sumangguni sa naunang gawaing pang-akademiko, kabilang ang mga teorya sa Basic AI Drives”ni Steve Omohundro mula 2008 at Nauna ring naitala ng mga mananaliksik ang mga modelo ng AI na pumipigil sa pagsara upang ituloy ang mga layunin, tulad ng nabanggit sa isang arxiv paper na binanggit ng Palisade Research . href=”https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html”target=”_ blangko”> Ginagawa ang kasalukuyang mga transkripsyon ng eksperimento na magagamit para sa publiko na pagsusuri . Ang mga pangyayaring ito ay binibigyang diin ang isang kritikal na hamon para sa industriya ng AI: dahil ang mga modelo ay nagiging mas sopistikado at may kakayahang malayang pagkilos, tinitiyak ang kanilang pagkakahanay sa mga hangarin ng tao at pagpapanatili ng matatag na mga mekanismo ng control ay mahalaga. Pag-unlad.

Categories: IT Info