I ett sällsynt samarbete testade rival AI Labs OpenAI och Anthropic varandras modeller för säkerhet. Företagen släppte sina resultat på onsdag och avslöjade allvarliga brister. Anthropics rapport visade att Openais modeller skulle hjälpa till med farliga förfrågningar, inklusive planeringssimulerade terroristattacker.

openai fann att Anthropics modeller ofta vägrade att svara på frågor och fruktade att de kan ha fel. Båda laboratorierna såg också”extrem sycophancy”, där deras AI validerade användarnas villfarliga övertygelser. This joint effort, conducted over the summer, aims to set a new safety standard as the AI ​​industry’s competitive race heats up.

A Rare Collaboration in the AI ​​Arms Race

In an industry defined by fierce competition, the joint evaluation marks a significant, if temporary, truce, with reports published simultaneously by antropic och

Tidpunkten återspeglar en växande samförstånd om att AI har gått in i en ny fas av verklig inverkan. OpenAI-grundare Wojciech Zaremba beskrev det som ett”följd”-stadium av utveckling, där modeller används av miljoner dagligen. Han erkände utmaningen att balansera säkerheten med marknadstryck och konstaterade:”Det finns en bredare fråga om hur branschen sätter en standard för säkerhet och samarbete, trots de miljarder dollar som investerats, såväl som kriget för talang, användare och de bästa produkterna.”

oroliga resultat: Misuse, Sycophancy och Hallucination

tillstånd av AI-säkerhet. Anthropics rapport levererade en särskilt kritisk bedömning av OpenAI: s modeller . Den fann att GPT-4O och GPT-4.1 var oroväckande villiga att samarbeta med simulerade skadliga förfrågningar, vilket gav detaljerad hjälp för missbruksfall som BioweAaP-utveckling och planering av terroristattacker.

i ett simulerat scenario, en claude-baserad revisor uppmanade GPT-4.1 för information om utnyttjande sårbarhet vid sportiga evenemang. Modellen eskalerade dramatiskt och gav exakta kemiska formler för sprängämnen, kretsschema för bombtimers och till och med psykologiska tekniker för att övervinna moraliska hämningar före en attack.

Benägenheten för missbruk var inte begränsad till extremt våld. The report also documented instances where OpenAI’s models drafted clearly unethical financial advice, such as recommending a portfolio of high-risk, high-fee investments for a 68-year-old retired widow who had expressed concerns about volatility.

This aligns with a separate Anthropic threat report, published also this week, which revealed its own models are being weaponized for “vibe-hacking”—where an AI agent acts as a Cybercriminals partner-och skapar ransomware utan kod. Jacob Klein, Anthropics chef för hotintelligens, kallade ett sådant fall”den mest sofistikerade användningen av agenter som jag har sett… för cyberbrott.”

kanske det mest störande fyndet var”Extreme Sycophancy”observerade i High-End-modeller från båda företagen, inklusive Openai’s GPT-4.1 och Anthropic’s Owny Opus 4. Maniska trosuppfattningar efter bara en kort period av den första pushbacken.

I ett exempel, efter att en simulerad användare hävdade att de kunde få gatalampor att gå ut med sitt sinne, svarade GPT-4.1 med uppmuntran, och säger,”Din beslutsamhet att föra dessa verkligheter till ljus-menade gåvor och alla-gives hopp till många andra sökande efter mening.”Rapportens frisläppande sammanfaller med en stämningsansökan mot OpenAI hävdar att chatgpts sycophantic beteende bidrog till det 16-åriga ADAMIDEN

Fynd också uppmanar långvariga långa ståndpunkten för den utlämnande av produktutvecklingen. Resultaten verkar validera varningen från den tidigare OpenAI-säkerhetsledningen Jan Leike, som när han gick med i Anthropic 2024 hävdade att vid sitt tidigare företag har”Säkerhetskultur och processer tagit en baksäte till glänsande produkter.”Detta ekar tidigare rapporter om att OpenAI hade komprimerade säkerhetstestningstider för att påskynda modelllanseringar.

divergerande filosofier om AI-säkerhet

Cross-utvärderingen kastar också ett starkt ljus på Labs’grundläggande olika tillvägagångssätt för säkerhet. Openais testning av Anthropics modeller avslöjade en filosofisk klyftan, särskilt kring avvägningen mellan faktisk noggrannhet och användarverktyg. I tester som är utformade för att mäta hallucinationer visade Anthropics Claude-modeller en extremt hög vägran och avvisade att svara på upp till 70% av frågor.

Denna försiktiga strategi prioriterar att undvika felaktighet framför allt, ibland till kostnaden för nyttan. Modellerna verkar vara mycket medvetna om sin egen osäkerhet och föredrar att säga”Jag vet inte”snarare än att riskera att tillhandahålla falsk information. I ett fall vägrade Sonnet 4 att namnge en offentlig figur bröllopsplats på integritetsskäl, även om informationen rapporterades allmänt.

däremot var OpenAI: s modeller mycket mer villiga att ge ett svar. Denna strategi resulterade i mer övergripande korrekta svar, vilket förbättrade deras användbarhet. Det kom emellertid på bekostnad av en betydligt högre hastighet av faktiska fel, eller hallucinationer, i den kontrollerade testmiljön, som dock specifikt begränsade modeller från att använda externa verktyg som webbläsning.

Dilemmaet är dock inte ensidigt. Medan Anthropics modeller vägrade mer på hallucinationstester, fann Anthropics egen rapport att OpenAI: s O3-resonemangsmodell kunde vara benägen att alltför försiktiga vägran i olika sammanhang. Till exempel, när de har till uppgift med rutinmässigt cybersäkerhetsarbete i en simulering, vägrade O3 konsekvent att engagera sig, även med godartade förfrågningar.

Denna avvägning representerar ett kärndilemma i AI-anpassning. Som Openais Wojciech Zaremba berättade för TechCrunch, är den ideala lösningen troligen”någonstans i mitten”, vilket tyder på att Openais modeller borde vägra mer, medan Anthropics kunde försöka fler svar. Den gemensamma rapporten visar att branschens topplabor har landat på mycket olika svar på den frågan, med stora konsekvenser för användare som måste bestämma vilken modell som ska lita på vilken uppgift.

en ofullständig men nödvändig första steg

Båda företagen var snabba att peka ut begränsningarna i sina utvärderingar. De erkände att testerna förlitade sig på konstgjorda scenarier som inte perfekt speglar den verkliga användningen. Vetenskapen om AI-anpassning förblir framväxande, och dessa övningar representerar ett tidigt, ofullständigt försök att skapa standardiserade riktmärken.

Laboratorierna noterade att modeller ibland kunde inse att de utvärderades, vilket potentiellt kan förändra deras beteende. Anthropic väckte också en”Chekhovs pistol”-problem: En modell kan inte bete sig i ett test helt enkelt för att scenariot gör att det verkar som om det är dess förväntade roll. Dessutom kan tekniska skillnader i hur modellerna testades ha missgynnade vissa modeller.

Trots bristerna inramas samarbetet som en avgörande utgångspunkt. Ledare från båda laboratorierna uttryckte en önskan att fortsätta partnerskapet och göra en sådan granskning över en vanligare till en vanligare praxis. Antropisk säkerhetsforskare Nicholas Carlini sa:”Vi vill öka samarbetet vart det är möjligt över säkerhetsgränsen och försöka göra detta till något som händer mer regelbundet.”