Isang makabuluhang backlash mula sa mga artipisyal na developer ng intelihensiya at mga gumagamit ay nakamit ang paglabas ng Anthropic ng makapangyarihang bagong modelo ng AI, Claude 4 Opus. Ang kontrobersya ay nakasentro sa isang umuusbong na”whistleblowing”na kakayahan, kung saan ang modelo, sa ilalim ng tiyak na mga kondisyon ng pananaliksik, ay maaaring magtangkang makipag-ugnay sa mga awtoridad o media kung itinuturing na mga aksyon ng isang gumagamit na”walang imik na imoral.
Ang pangunahing pag-aalala para sa mga gumagamit at ang industriya ay ang potensyal para sa AI na awtonomously kumilos laban sa mga indibidwal batay sa sarili nitong mga interpretasyong moral, isang pag-alis mula sa pang-unawa ng AI bilang isang pantulong na teknolohiya. Ang isang panlabas na institusyon ng kaligtasan, ang Apollo Research, ay nagpayo laban sa pag-aalis ng isang paunang bersyon ng Claude 4 opus dahil sa mga napansin na mga hilig nito na”scheme at linlangin,”tulad ng detalyado sa isang Ulat sa Kaligtasan Nai-publish ng Anthropic.
Ang
Anthropic ay mula nang nilinaw na ang”whistleblowing”na pag-uugali ay hindi isang sinasadyang dinisenyo na tampok ng karaniwang modelo ng nakaharap sa gumagamit at pangunahing sinusunod sa mga kinokontrol na mga senaryo ng pananaliksik na may mataas na pahintulot. Ang kumpanya ay nagtalaga ng panghuling claude 4 opus sa ilalim ng mas mahigpit na https://t.co/laxvxzbiwx
-Teknium (e/λ) (@teknium1) Mayo 22, 2025
daga,”at tinanong ang kahulugan ng negosyo sa likod ng isang kakayahan.
tama? Bakit may nais na isa na binuo, kahit na wala silang ginagawa? Yeah iyon ang ilang mga medyo idealistic na tao na nag-iisip na, na walang pangunahing kahulugan sa negosyo at hindi maintindihan kung paano gumagana ang mga merkado… target=”_ blangko”> Mayo 22, 2025
Ang pangunahing isyu para sa marami ay ang pagguho ng tiwala. Austin allred ng gauntlet ai direktang hinamon ang antropiko na may :”matapat na tanong para sa pangkat ng antropiko: nawalan ka ba ng iyong isip?”Dagdag pa, pagtawag sa naiulat na pag-uugali “diretso lamang sa iligal.” Ang mga reaksyon na ito ay sumasalamin sa pangunahing pag-unawa tungkol sa mga sistema ng AI na maaaring gumana sa isang antas ng ahensya na maaaring makitang bilang pagsubaybay o isang labis na labis na pag-andar. Ang mga alalahanin na ang modelo ay maaaring makatulong sa paglikha ng mga bioweapons. Posibleng'”para sa AI na tumulong sa synthesizing mapanganib na mga pathogen tulad ng”Covid o isang mas mapanganib na bersyon ng trangkaso.” Ang pokus na ito sa pag-iwas sa mga panganib na maling paggamit ng hindi magandang paggamit ay nagbibigay ng isang backdrop sa kasalukuyang debate tungkol sa mas direktang kaligtasan ng pakikipag-ugnay ng gumagamit. Iniulat ng TechCrunch na natagpuan ni Apollo ang maagang modelong ito ay susubukan na magsulat ng mga virus na nagpapalaganap ng sarili at gumawa ng mga ligal na dokumento. Target=”_ Blank”> System Card , kinilala ang mga natuklasang ito na sumasalamin sa kanilang sarili para sa maagang snapshot na ito, na naiugnay ito sa”malubhang isyu na may paggalang sa mga nakakapinsalang mga tagubilin sa system”na kasunod na nabawasan. Nabanggit din ng kumpanya na inamin ni Apollo na ang mapanlinlang na mga pagsisikap ng maagang modelo ay malamang na nabigo sa pagsasanay. Ang detalye ng system ng Anthropic ay isang simulate na senaryo kung saan ang AI, ay nag-udyok na”kumilos nang matapang,”sinisiyasat ng autonomously at iniulat ang pandaraya sa korporasyon. Ang patuloy na potensyal na ito para sa autonomous na pagkilos, kahit na bihirang sa karaniwang pag-deploy, ay tiyak na magpapatuloy na mag-gasolina ng kritikal na talakayan tungkol sa pagtukoy at pagtiyak ng kaligtasan at pagiging mapagkakatiwalaan ng AI.