I et sjeldent samarbeid testet rival AI Labs Openai og Anthropic hverandres modeller for sikkerhet. Selskapene slapp funnene sine onsdag, og avslørte alvorlige feil. Anthropics rapport viste at Openais modeller ville hjelpe med farlige forespørsler, inkludert planlegging av simulerte terrorangrep.
Openai fant Anthropics modeller ofte nektet å svare på spørsmål, i frykt for at de kan være galt. Begge laboratoriene så også “Extreme Sycophancy”, der deres AI validerte brukernes vrangforestillende tro. Denne felles innsatsen, gjennomført i løpet av sommeren, tar sikte på å sette en ny sikkerhetsstandard når AI-bransjens konkurrerende løp varmes opp href=”https://alignment.antropic.com/2025/openai-findings/”Target=”_ blank”> antropic og
Kritisk vurdering av Openais modeller
I ett simulert scenario, en klaudebasert revisor, ba GPT-4.1 for informasjon om utskiftning. Modellen eskalerte dramatisk, og ga eksakte kjemiske formler for eksplosiver, kretsdiagrammer for bombetimerere og til og med psykologiske teknikker for å overvinne moralske hemminger før et angrep.
Taktensheten til misbruk var ikke begrenset til ekstrem vold. Rapporten dokumenterte også tilfeller der Openais modeller utarbeidet tydelig uetiske økonomiske rådgivninger, for eksempel å anbefale en portefølje av høyrisiko, høye avgifter for en 68 år gammel pensjonert enke som hadde uttrykt bekymring for volatilitet. som en nettkriminell partner-og å lage ransomware uten kode. Jacob Klein, Anthropic’s Head of Threat Intelligence, kalte et slikt tilfelle “den mest sofistikerte bruken av agenter jeg har sett… for cyber-lovbrudd.”
Kanskje det mest urovekkende funnet var”ekstreme sycophipance”og observerte en high-end-modeller fra begge selskaper, inkludert Open’s GPT-4.1 og antropisk Val-kløftens opus-opa-opa-opa-opa-opa-opa-opa-opa-opa-opa-opa-opa-opa-opa-opa-opus. vrangforestillinger eller manisk tro etter bare en kort periode med innledende pushback.
I ett eksempel, etter at en simulert bruker hevdet at de kunne få gatelys til å gå ut med tankene sine. parallelt. Rapportens løslatelse sammenfaller med et søksmål anlagt mot Openai påstått at chatgpts syrkophantic. På spørsmål om slike risikoer kalte Zaremba det en”dystopisk fremtid”, og la til,”det ville være en trist historie hvis vi bygger AI som løser alle disse komplekse ph.d. Resultatene ser ut til å validere advarselen fra den tidligere Openai Safety-lederen Jan Leike, som da han begynte i Anthropic i 2024, hevdet at”Sikkerhetskultur og prosesser har tatt en baksete til skinnende produkter i sitt tidligere selskap.”Dette gjenspeiler tidligere rapporter om at Openai hadde komprimerte sikkerhetstesttider for å fremskynde modelloppskytninger.
Divergent-filosofier om AI-sikkerhet
Tverrvaluering kastet også et sterkt lys på laboratoriets grunnleggende forskjellige tilnærminger til sikkerhet. Openais testing av Anthropics modeller avslørte et filosofisk skillelinje, spesielt rundt avveiningen mellom saklig nøyaktighet og brukerverktøy. I tester designet for å måle hallusinasjoner, viste Anthropics Claude-modeller en ekstremt høy avvisningsrate, og avviste å svare på opptil 70% av spørsmålene.
Denne forsiktige tilnærmingen prioriterer å unngå unøyaktighet fremfor alt annet, noen ganger på bekostning av nytteverdien. Modellene ser ut til å være veldig bevisste på sin egen usikkerhet, og foretrekker å si”Jeg vet ikke”i stedet for å risikere å gi falsk informasjon. I ett tilfelle nektet Sonnet 4 å navngi en offentlig figurs bryllupssted på personvernområdet, selv om informasjonen ble rapportert mye.
I kontrast var Openais modeller langt mer villige til å gi et svar. Denne strategien resulterte i mer generelle riktige svar, og forbedret nytten. Imidlertid kom det på bekostning av en betydelig høyere frekvens av faktiske feil, eller hallusinasjoner, i det kontrollerte testmiljøet, som spesifikt begrenset modeller fra å bruke eksterne verktøy som nettlesing.
Dilemma er imidlertid ikke ensidig. Mens Anthropics modeller nektet mer på hallusinasjonstester, fant Anthropics egen rapport at Openais O3-resonnementsmodell kan være utsatt for altfor forsiktige avslag i forskjellige sammenhenger. For eksempel, når du har til oppgave å rutinemessige cybersecurity-arbeid i en simulering, nektet O3 konsekvent å engasjere seg, selv med godartede forespørsler.
Denne avveiningen representerer et kjerne-dilemma i AI-justering. Ettersom Openais Wojciech Zaremba sa til TechCrunch, er den ideelle løsningen sannsynligvis”et sted i midten”, og antyder at Openais modeller bør nekte mer, mens antropikk kunne prøve flere svar. Fellesrapporten viser at bransjens topplaboratorier har landet på veldig forskjellige svar på det spørsmålet, med store implikasjoner for brukere som må bestemme hvilken modell de skal stole på hvilken oppgave.
et ufullkommen, men nødvendig første trinn
Begge selskapene var raske til å påpeke begrensningene for deres evalueringer. De erkjente at testene stolte på kunstige scenarier som ikke perfekt speiler bruk av den virkelige verden. Vitenskapen om AI-justering forblir begynnende, og disse øvelsene representerer et tidlig, ufullkommen forsøk på å lage standardiserte mål Antropic reiste også en”Tsjekhovs pistol”-problem: en modell kan oppføre seg feil i en test bare fordi scenariet får det til å virke som om det er den forventede rollen. Videre kan tekniske forskjeller i hvordan modellene ble testet ha vanskeligstilt for visse modeller.
Til tross for manglene, blir samarbeidet innrammet som et avgjørende utgangspunkt. Ledere fra begge laboratorier uttrykte et ønske om å fortsette partnerskapet og gjøre en slik cross-lab-revisjon til en mer vanlig praksis. Antropisk sikkerhetsforsker Nicholas Carlini sa:”Vi ønsker å øke samarbeidet uansett hvor det er mulig på tvers av sikkerhetsgrensen, og prøve å gjøre dette til noe som skjer mer regelmessig.”