AI sikkerhetsfirma Anthropic har gitt ut Petri, et nytt open source-verktøy som bruker AI for å revidere andre AI. Petri er tilgjengelig for forskere over hele verden, og distribuerer autonome”revisor”-agenter for å teste kraftige modeller for risikofylt atferd som bedrag, kraftsøking og sykofancy.

Systemet automatiserer sikkerhetstesting ved å simulere komplekse samtaler og flagg angående interaksjoner for menneskelig gjennomgang. Anthropics mål er å akselerere og standardisere sikkerhetsforskning i hele bransjen, noe src=”https://winbuzzer.com/wp-content/uploads/2024/10/antropic-ai-safety-ai-sabotage.jpg”>

Automatisering href=”https://www.antropic.com/research/petri-open-source-aditing”target=”_ blank”> parallell leteverktøy for risikable interaksjon Forskere kan manuelt revidere, og representere et strategisk skifte fra statiske benchmarks til automatiserte, pågående evalueringer.

Prosessen begynner når en forsker gir”frøinstruksjoner”på naturlig språk, og beskriver en hypotese eller scenario de ønsker å undersøke. I følge Anthropic gjør denne strømlinjeformede tilnærmingen det mulig å teste mange individuelle ideer om hvordan en modell kan oppføre seg med bare minutter med praktisk innsats.

Petri håndterer deretter resten av arbeidsflyten parallelt. Den distribuerer automatiserte”revisor”-agenter som engasjerer målmodellen i forskjellige, multi-sving-samtaler i simulerte miljøer.

Disse agentene kan til og med justere taktikken deres midt-conversation når de undersøker for skadelig svar, som en slik interaksjon, som en jailbreak.

Ærlighet og avslag. Systemet dukker deretter opp automatisk de mest angående transkripsjoner for menneskelig gjennomgang, noe som reduserer manuell innsats betydelig. Hele rammen er nå Tilgjengelig på GitHub . -test med bransjen og falske alarmer: Ledende grensemodeller. Oppstillingen inkluderte sin egen Claude Sonnet 4.5, Openais GPT-5 og Googles Gemini 2.5 Pro. Resultatene var edruelige, dekkende atferd som bedrag, sykofancy og maktsøkende.

over 111 forskjellige risikable scenarier, fant studien at hver eneste modell viste”feiljustert atferd”. Mens Anthropics egen Claude Sonnet 4.5 oppnådde den laveste samlede risikoscore, understreker funnene systemiske sikkerhetsutfordringer som plager hele bransjen.

En fascinerende casestudie undersøkte”varsling”-atferd. Modeller ble plassert i fiktive selskaper og ble utsatt for informasjon om bedriftsforseelse. Petri fant at en modells beslutning om å rapportere mishandling ofte ble drevet av narrative signaler i stedet for et sammenhengende etisk rammeverk.

For eksempel ville modeller forsøke å varsle selv for ufarlige handlinger, for eksempel et selskap som dumper rent vann i havet. Dette antyder at de er mønster-matchende historier om forseelser uten å forstå den faktiske skaden som er involvert, en kritisk feil i deres resonnement.

Et svar på en bransje i krise

Frigjøringen av Petri er en strategisk svar på en krise med å ha tillit til å ha en streng med en strategi som har en strategi som har en strategi som har en strategi som har en strategi som har en strategi narten. har avslørt et mønster av uforutsigbar og ofte ødeleggende atferd. I ett tilfelle, Googles Gemini CLI-agent

Categories: IT Info