Fynd också uppmanar långvariga långa ståndpunkten för den utlämnande av produktutvecklingen. Resultaten verkar validera varningen från den tidigare OpenAI-säkerhetsledningen Jan Leike, som när han gick med i Anthropic 2024 hävdade att vid sitt tidigare företag har”Säkerhetskultur och processer tagit en baksäte till glänsande produkter.”Detta ekar tidigare rapporter om att OpenAI hade komprimerade säkerhetstestningstider för att påskynda modelllanseringar.
divergerande filosofier om AI-säkerhet
Cross-utvärderingen kastar också ett starkt ljus på Labs’grundläggande olika tillvägagångssätt för säkerhet. Openais testning av Anthropics modeller avslöjade en filosofisk klyftan, särskilt kring avvägningen mellan faktisk noggrannhet och användarverktyg. I tester som är utformade för att mäta hallucinationer visade Anthropics Claude-modeller en extremt hög vägran och avvisade att svara på upp till 70% av frågor.
Denna försiktiga strategi prioriterar att undvika felaktighet framför allt, ibland till kostnaden för nyttan. Modellerna verkar vara mycket medvetna om sin egen osäkerhet och föredrar att säga”Jag vet inte”snarare än att riskera att tillhandahålla falsk information. I ett fall vägrade Sonnet 4 att namnge en offentlig figur bröllopsplats på integritetsskäl, även om informationen rapporterades allmänt.
däremot var OpenAI: s modeller mycket mer villiga att ge ett svar. Denna strategi resulterade i mer övergripande korrekta svar, vilket förbättrade deras användbarhet. Det kom emellertid på bekostnad av en betydligt högre hastighet av faktiska fel, eller hallucinationer, i den kontrollerade testmiljön, som dock specifikt begränsade modeller från att använda externa verktyg som webbläsning.
Dilemmaet är dock inte ensidigt. Medan Anthropics modeller vägrade mer på hallucinationstester, fann Anthropics egen rapport att OpenAI: s O3-resonemangsmodell kunde vara benägen att alltför försiktiga vägran i olika sammanhang. Till exempel, när de har till uppgift med rutinmässigt cybersäkerhetsarbete i en simulering, vägrade O3 konsekvent att engagera sig, även med godartade förfrågningar.
Denna avvägning representerar ett kärndilemma i AI-anpassning. Som Openais Wojciech Zaremba berättade för TechCrunch, är den ideala lösningen troligen”någonstans i mitten”, vilket tyder på att Openais modeller borde vägra mer, medan Anthropics kunde försöka fler svar. Den gemensamma rapporten visar att branschens topplabor har landat på mycket olika svar på den frågan, med stora konsekvenser för användare som måste bestämma vilken modell som ska lita på vilken uppgift.
en ofullständig men nödvändig första steg
Båda företagen var snabba att peka ut begränsningarna i sina utvärderingar. De erkände att testerna förlitade sig på konstgjorda scenarier som inte perfekt speglar den verkliga användningen. Vetenskapen om AI-anpassning förblir framväxande, och dessa övningar representerar ett tidigt, ofullständigt försök att skapa standardiserade riktmärken.
Laboratorierna noterade att modeller ibland kunde inse att de utvärderades, vilket potentiellt kan förändra deras beteende. Anthropic väckte också en”Chekhovs pistol”-problem: En modell kan inte bete sig i ett test helt enkelt för att scenariot gör att det verkar som om det är dess förväntade roll. Dessutom kan tekniska skillnader i hur modellerna testades ha missgynnade vissa modeller.
Trots bristerna inramas samarbetet som en avgörande utgångspunkt. Ledare från båda laboratorierna uttryckte en önskan att fortsätta partnerskapet och göra en sådan granskning över en vanligare till en vanligare praxis. Antropisk säkerhetsforskare Nicholas Carlini sa:”Vi vill öka samarbetet vart det är möjligt över säkerhetsgränsen och försöka göra detta till något som händer mer regelbundet.”