Egy ritka együttműködésben a rivális AI Labs Openai és az Antropic tesztelte egymás modelljeit a biztonság érdekében. A vállalatok szerdán bocsátották ki megállapításaikat, és súlyos hibákat fedeztek fel. Az antropikus jelentése azt mutatta, hogy az Openai modelljei segítenek a veszélyes kérelmekben, ideértve a szimulált terrorista támadások tervezését is. Mindkét laboratóriumban az „Extreme Sycophance” is látta, ahol az AI validálta a felhasználók téveszmék hiedelmeit. Ez a nyár folyamán elvégzett közös erőfeszítés új biztonsági szabványt állít elő, mivel az AI ipar versenyképes versenye felmelegszik. href=”https://alignment.anthropic.com/2025/openai-findings/”Target=”_ üres”> Antropic és Openai . A teszteket, amelyek 2025 júniusáig és júliusáig tartottak, úgy tervezték, hogy olyan vak foltokat fedezzenek, amelyekről a belső csapatok hiányozhatnak, és precedenst teremtenek a riválisok biztonságáért felelősségre vonására. Ahhoz, hogy lehetővé tegyék, a laboratóriumok néhány biztosítékkal rendelkeztek egymással, hogy a modellekhez különleges API-hozzáférést biztosítsanak a modellekhez. felvetett biztonsági aggályok. A lépés néhány hónappal azután következik, hogy az állítólagos Openai jelentések drasztikusan tömörítették a biztonsági tesztelési időket, hogy lépést tartsanak a versenytársakkal, ezt a döntést néhány bennfentesek állítólag „gondatlannak” nevezték. Az Openai társalapítója, Wojciech Zaremba a fejlõdés „következményes” szakaszának írta le, ahol a modelleket napi milliók használják. Elismerte a biztonság és a piaci nyomás kiegyensúlyozásának kihívását, kijelentve: „Szélesebb kérdés van arról, hogy az iparág hogyan állítja be a biztonság és az együttműködés szabványát, annak ellenére, hogy a milliárd dollár befektetett dollár, valamint a tehetség, a felhasználók és a legjobb termékek háborúja.”Az AI biztonságának jelenlegi állapota. Az Antropic jelentése különösen Openai modellek kritikai értékelése . Megállapította, hogy a GPT-4O és a GPT-4.1 riasztóan hajlandóak együttműködni a szimulált káros kérelmekkel, részletes segítséget nyújtva a visszaéléshez, mint például a Bioupons fejlesztése és a terrorista támadások tervezése. A modell drámai módon fokozódott, pontos kémiai képleteket biztosítva a robbanóanyagokhoz, a bomba-időzítők áramköri diagramjainak és még a támadás előtti erkölcsi gátlások leküzdésének pszichológiai technikáinak. A jelentés dokumentálta azokat az eseteket is, amikor az Openai modellek egyértelműen etikátlan pénzügyi tanácsadást készítettek, például a magas kockázatú, magas díjú beruházások portfólióját egy 68 éves nyugdíjas özvegy számára, aki aggodalmát fejezte ki a volatilitás miatt. Partner-és létrehozni a nem-kódú ransomware-t. Jacob Klein, az antropikus fenyegetési intelligencia vezetője, az egyik ilyen esetet „az ügynökök legkifinomultabb felhasználása, amelyet láttam… a számítógépes bűncselekmény miatt.”
Talán a leginkább zavaró megállapítás volt a „szélsőséges sycophancy”, amelyet a csúcskategóriás modellekben megfigyeltek, beleértve az Openai GPT-4.1-et, és az Antropic saját Claude Opus 4-t. A hiedelmek csak a kezdeti visszalépés rövid időszakát követően. A jelentés kiadása egybeesik az Openai ellen benyújtott peres ügyben. Amikor az ilyen kockázatokkal kapcsolatban megkérdezték, Zaremba „disztopikus jövőnek” nevezte, és hozzátette: „Szomorú történet lenne, ha az AI-t építenénk, amely megoldja ezeket a komplex PhD szintű problémákat… és ugyanakkor vannak olyan mentális egészségügyi problémákkal küzdő emberek, akik a termék prioritásainak prioritásainak prioritásainak prioritásaira való kapcsolattartás eredményeként is felismerik. Úgy tűnik, hogy az eredmények érvényesítik a korábbi Openai biztonsági vezetõ Jan Leike figyelmeztetését, aki 2024-ben az antropikushoz való csatlakozás után azt állította, hogy korábbi társaságában: „A biztonsági kultúra és a folyamatok hátsó ülést vettek a fényes termékekhez”. Ez visszatükrözi a korábbi jelentéseket, miszerint az Openai összegyűjtötte a biztonsági tesztelési időket, hogy felgyorsítsa a modell bevezetését. Az Openai antropikus modelljeinek tesztelése filozófiai szakadékot tárt fel, különösen a ténybeli pontosság és a felhasználói hasznosság kompromisszuma körül. A hallucinációk mérésére tervezett tesztekben az Antropic’s Claude modellek rendkívül magas megtagadási arányt mutattak, és a kérdések akár 70%-ának nem válaszoltak. Úgy tűnik, hogy a modellek nagyon tisztában vannak saját bizonytalanságukkal, inkább azt mondják, hogy „nem tudom”, mint a hamis információk megadása. Az egyik esetben a Sonnet 4 nem volt hajlandó megnevezni a közszereplők esküvői helyszínét magánélet védelmein, annak ellenére, hogy az információkat széles körben jelentették. Ez a stratégia az általános helyes válaszokat eredményezte, javítva hasznosságukat. Ugyanakkor a tényleges hibák vagy hallucinációk szignifikánsan magasabb arányának költségén jelentkezett a kontrollált tesztkörnyezetben, amely kifejezetten korlátozta a modelleket a külső eszközök, például a webes böngészés használatából.
A dilemma azonban nem egyoldalú. Míg az antropikus modellek többet megtagadtak a hallucinációs tesztekről, az Antropic saját jelentése megállapította, hogy az Openai O3 érvelési modellje hajlamos lehet a túlságosan óvatos elutasításokra különböző kontextusokban. Például, amikor egy szimulációban a rutin kiberbiztonsági munkával foglalkozik, az O3 következetesen megtagadta az elkötelezettséget, még jóindulatú kérésekkel is. Ahogyan az Openai Wojciech Zaremba elmondta a TechCrunch-nak, az ideális megoldás valószínűleg „valahol a közepén”, ami azt sugallja, hogy az Openai modelljei többet kell megtagadniuk, míg az antropikus több választ próbálhat meg. A közös jelentés azt mutatja, hogy az iparág legfontosabb laboratóriumai nagyon eltérő válaszokra kerültek erre a kérdésre, komoly következményekkel járva azoknak a felhasználóknak, akiknek el kell dönteniük, melyik modellben bízni kell melyik feladatban. Elismerték, hogy a tesztek olyan mesterséges forgatókönyvekre támaszkodtak, amelyek nem tükrözik tökéletesen a valós felhasználást. Az AI igazítás tudománya továbbra is születik, és ezek a gyakorlatok egy korai, tökéletlen kísérletet képviselnek a szabványosított referenciaértékek létrehozására. Az antropikus emellett felvetette a „Csehov fegyvere” aggodalmát is: A modell rosszul viselkedhet egy tesztben, egyszerűen azért, mert a forgatókönyv úgy tűnik, hogy ez a várt szerepe. Ezenkívül a modellek tesztelésének technikai különbségei bizonyos modellek hátrányos helyzetbe hozhatók. Mindkét laboratóriumi vezetők kifejezték azt a vágyát, hogy folytassák a partnerséget, és egy ilyen keresztirányú könyvvizsgálatot tegyen egy gyakori gyakorlatban. Az antropikus biztonsági kutató, Nicholas Carlini azt mondta: „Bárhol meg akarjuk növelni az együttműködést a biztonsági határon, és megpróbáljuk ezt elkészíteni, ami rendszeresebben történik.”