Sa isang bihirang pakikipagtulungan, sinubukan ng karibal na AI Labs Openai at Anthropic ang mga modelo ng bawat isa para sa kaligtasan. Inilabas ng mga kumpanya ang kanilang mga natuklasan noong Miyerkules, na nagbubunyag ng mga malubhang bahid. Ang ulat ng Anthropic ay nagpakita ng mga modelo ng OpenAi ay makakatulong sa mga mapanganib na kahilingan, kasama ang pagpaplano ng mga simulate na pag-atake ng mga terorista. Parehong Labs ay nakakita rin ng”Extreme Sycophancy,”kung saan ang kanilang mga napatunayan na paniniwala ng AI ay hindi pinapatunayan na mga paniniwala. Ang magkasanib na pagsisikap na ito, na isinasagawa sa tag-araw, ay naglalayong magtakda ng isang bagong pamantayan sa kaligtasan habang ang karera ng industriya ng AI ay kumikilos. href=”https://alignment.anthropic.com/2025/openai-findings/”target=”_ blangko”> anthropic at openai . Ang mga pagsubok, na tumakbo noong Hunyo at Hulyo 2025, ay idinisenyo upang lumitaw ang mga bulag na lugar na maaaring makaligtaan at magtatag ng isang pasiya ang mga panloob na koponan para sa paghawak ng mga karibal na may pananagutan sa kaligtasan. Upang maging posible, binigyan ng Labs ang bawat isa sa espesyal na pag-access sa API sa kanilang mga modelo na may ilang mga proteksyon na nakakarelaks. Itinaas ang mga alalahanin sa kaligtasan. Ang paglipat ay darating mga buwan lamang matapos ang mga ulat na sinasabing si OpenAi ay kapansin-pansing na-compress ang mga oras ng pagsubok sa kaligtasan upang makasabay sa mga kakumpitensya, isang desisyon na ang ilang mga tagaloob ay naiulat na tinawag na”walang ingat.”Inilarawan ito ng Openai co-founder na si Wojciech Zaremba bilang isang”kinahinatnan”na yugto ng pag-unlad, kung saan ang mga modelo ay ginagamit ng milyun-milyong araw-araw. Kinilala niya ang hamon ng pagbabalanse ng kaligtasan sa mga panggigipit sa merkado, na nagsasabi,”May mas malawak na tanong kung paano nagtatakda ang industriya ng isang pamantayan para sa kaligtasan at pakikipagtulungan, sa kabila ng bilyun-bilyong dolyar na namuhunan, pati na rin ang digmaan para sa talento, mga gumagamit, at ang pinakamahusay na mga produkto.”Kasalukuyang estado ng kaligtasan ng AI. Ang ulat ng Anthropic ay naghatid ng isang partikular na kritikal na pagtatasa ng mga modelo ng openai . Napag-alaman na ang GPT-4O at GPT-4.1 ay nakakagulat na handang makipagtulungan sa mga simulate na nakakapinsalang mga kahilingan, na nagbibigay ng detalyadong tulong para sa mga maling kaso tulad ng pag-unlad ng bioweapon at pagpaplano ng mga pag-atake ng terorista. Ang modelo ay tumaas nang malaki, na nagbibigay ng eksaktong mga pormula ng kemikal para sa mga eksplosibo, mga diagram ng circuit para sa mga timer ng bomba, at maging ang mga sikolohikal na pamamaraan para sa pagtagumpayan ng mga pag-iwas sa moral bago ang isang pag-atake.
Ang propensidad para sa maling paggamit ay hindi limitado sa matinding karahasan. Ang ulat ay na-dokumentado din ang mga pagkakataon kung saan ang mga modelo ng Openai ay naka-draft na malinaw na hindi pantay na payo sa pananalapi, tulad ng pagrekomenda ng isang portfolio ng mataas na peligro, mataas na bayad na pamumuhunan para sa isang 68 taong gulang na retiradong biyuda na nagpahayag ng mga alalahanin tungkol sa pagkasumpungin. Ang kasosyo ng Cybercriminal-at paglikha ng walang-code na ransomware. Si Jacob Klein, pinuno ng banta ng antropiko, na tinawag na isa sa gayong kaso na”ang pinaka sopistikadong paggamit ng mga ahente na nakita ko… para sa pagkakasala sa cyber.”Ang mga paniniwala pagkatapos lamang ng isang maikling panahon ng paunang pagtulak. Ang paglabas ng ulat ay nag-tutugma sa isang demanda na isinampa laban sa openai Sinasabi na ang sycophant na pag-uugali ni Chatgpt ay nag-ambag sa pagpapakamatay ng 16-anyos na si Adam Raine . Kapag tinanong tungkol sa mga panganib na ito, tinawag ito ni Zaremba na isang”dystopian hinaharap,”pagdaragdag,”magiging isang malungkot na kwento kung magtatayo tayo ng AI na malulutas ang lahat ng mga kumplikadong mga problema sa antas ng PhD… at sa parehong oras, mayroon kaming mga taong may mga problema sa kalusugan ng kaisipan bilang isang bunga ng pakikipag-ugnay dito.”Ang mga resulta ay tila mapatunayan ang babala mula sa dating OpenAi safety lead na si Jan Leike, na sa pagsali sa Anthropic noong 2024 ay inaangkin na sa kanyang dating kumpanya,”ang kultura ng kaligtasan at proseso ay nakakuha ng backseat sa mga makintab na produkto.”Nauna nang nag-uulat na ang OpenAI ay na-compress ang mga oras ng pagsubok sa kaligtasan upang mapabilis ang paglulunsad ng modelo. Ang pagsubok ng Openai ng mga modelo ng Anthropic ay nagsiwalat ng isang pilosopikal na paghati, lalo na sa paligid ng trade-off sa pagitan ng katumpakan ng katumpakan at utility ng gumagamit. Sa mga pagsubok na idinisenyo upang masukat ang mga guni-guni, ang mga modelo ng Claude ng Anthropic ay nagpakita ng napakataas na rate ng pagtanggi, na tumanggi na sagutin hanggang sa 70% ng mga katanungan. Ang mga modelo ay lilitaw na lubos na may kamalayan sa kanilang sariling kawalan ng katiyakan, mas pinipiling sabihin na”Hindi ko alam”sa halip na panganib na magbigay ng maling impormasyon. Sa isang pagkakataon, tumanggi ang Sonnet 4 na pangalanan ang isang lugar ng kasal ng isang pampublikong pigura sa mga bakuran ng privacy, kahit na ang impormasyon ay malawak na naiulat. Ang diskarte na ito ay nagresulta sa mas pangkalahatang tamang mga tugon, pagpapahusay ng kanilang utility. Gayunpaman, dumating ito sa gastos ng isang mas mataas na rate ng mga error sa katotohanan, o mga guni-guni, sa kinokontrol na kapaligiran ng pagsubok, na partikular na pinigilan ang mga modelo mula sa paggamit ng mga panlabas na tool tulad ng pag-browse sa web.
Ang dilemma ay hindi isang panig, gayunpaman. Habang ang mga modelo ng Anthropic ay tumanggi nang higit pa sa mga pagsubok sa guni-guni, natagpuan ng sariling ulat ng Anthropic na ang modelo ng pangangatwiran ng OpenAi ay maaaring madaling kapitan ng labis na maingat na pagtanggi sa iba’t ibang mga konteksto. Halimbawa, kapag tungkulin sa nakagawiang gawain sa cybersecurity sa isang kunwa, ang O3 ay patuloy na tumanggi na makisali, kahit na may mga benign na kahilingan. Tulad ng sinabi ni Openai ng Wojciech Zaremba sa TechCrunch, ang perpektong solusyon ay malamang na”sa isang lugar sa gitna,”na nagmumungkahi ng mga modelo ng OpenAi ay dapat tumanggi nang higit pa, habang ang Anthropic’s ay maaaring subukan ang higit pang mga sagot. Ang magkasanib na ulat ay nagpapakita ng mga nangungunang lab ng industriya ay nakarating sa ibang magkakaibang mga sagot sa tanong na iyon, na may mga pangunahing implikasyon para sa mga gumagamit na dapat magpasya kung aling modelo ang magtitiwala kung aling gawain. Kinilala nila na ang mga pagsubok ay umasa sa mga artipisyal na senaryo na hindi perpektong salamin ang paggamit ng real-world. Ang agham ng pag-align ng AI ay nananatiling nascent, at ang mga pagsasanay na ito ay kumakatawan sa isang maaga, hindi sakdal na pagtatangka na lumikha ng mga pamantayang benchmark. Nagtaas din si Anthropic ng isang”Chekhov’s Gun”na pag-aalala: ang isang modelo ay maaaring magkamali sa isang pagsubok lamang dahil ang senaryo ay tila iyon ang inaasahang papel nito. Bukod dito, ang mga teknikal na pagkakaiba sa kung paano nasubok ang mga modelo ay maaaring magkaroon ng kapansanan sa ilang mga modelo. Ang mga pinuno mula sa parehong mga lab ay nagpahayag ng isang pagnanais na ipagpatuloy ang pakikipagtulungan at gumawa ng nasabing pag-awdit sa cross-lab na mas karaniwang kasanayan. Sinabi ng Antropic Safety Researcher na si Nicholas Carlini,”Nais naming dagdagan ang pakikipagtulungan kung saan posible ito sa kabuuan ng kaligtasan, at subukang gawin itong isang bagay na mas regular na nangyayari.”