AI-veiligheidsbedrijf Anthropic heeft Petri uitgebracht, een nieuwe open-source tool die AI gebruikt om andere AI te controleren. Petri is wereldwijd beschikbaar voor onderzoekers wereldwijd en implementeert autonome”Auditor”-agenten om krachtige modellen te testen op risicovol gedrag zoals misleiding, stroomzoekende en sycofancy.

Het systeem automatiseert de veiligheidstests door complexe gesprekken te simuleren en met betrekking tot interacties voor menselijke beoordeling. Het doel van Anthropic is om veiligheidsonderzoek in de branche te versnellen en te standaardiseren, waardoor het gemakkelijker wordt om gevaarlijk gedrag te vinden en te repareren voordat ze schade uit de praktijk veroorzaken. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-i-aiTage.jpg”>

automatisering van de waakdogs: hoe petri werkt

antropic href=”https://www.antropic.com/research/petriopen-source-auditing”target=”_ blank”> Parallel exploratie-instrument voor risicovolle interacties (petri) is een directe reactie op een kritische uitdaging: de complexiteit van moderne AI heeft ver over de capaciteit voor effectieve testen. Offer wat onderzoekers handmatig kunnen controleren en een strategische verschuiving kunnen vertegenwoordigen van statische benchmarks naar geautomatiseerde, voortdurende evaluaties.

Het proces begint wanneer een onderzoeker”zaadinstructies”in natuurlijke taal biedt, die een hypothese of scenario beschrijven die ze willen onderzoeken. Volgens Anthropic maakt deze gestroomlijnde aanpak het mogelijk om veel individuele ideeën te testen over hoe een model zich zou kunnen gedragen met slechts enkele minuten hands-on inspanning.

Petri behandelt vervolgens de rest van de workflow parallel. Het implementeert geautomatiseerde”Auditor”-agenten die het doelmodel betrekken in diverse, multi-turn gesprekken in gesimuleerde omgevingen.

Deze agenten kunnen hun tactieken zelfs in de middenconversatie aanpassen, omdat ze sonderen voor schadelijke antwoorden, zoals het bespreken van een jailbreak. Eerlijkheid en weigering. Het systeem komt vervolgens automatisch op de meest betreffende transcripties voor menselijke beoordeling, waardoor de handmatige inspanningen aanzienlijk worden verminderd. Het hele framework is nu Beschikbaar op github .

Fouled Modellen en valse alarmen: Petri’s eerste bevindingen

modellen. De line-up omvatte zijn eigen Claude Sonnet 4.5, Openai’s GPT-5 en Google’s Gemini 2.5 Pro. De resultaten waren ontnuchterend, met betrekking tot gedragingen zoals bedrog, sycofancy en krachtzoekende.

In 111 verschillende risicovolle scenario’s bleek uit de studie dat elk model”verkeerd uitgelijnd gedrag vertoonde”. Terwijl Anthropic’s eigen Claude Sonnet 4.5 de laagste algehele risicoscore behaalde, onderstrepen de bevindingen systemische veiligheidsuitdagingen die de hele industrie pesten.

Een fascinerende case study onderzocht”klokkenluidend”gedrag. Modellen werden in fictieve bedrijven geplaatst en blootgesteld aan informatie over wangedrag van bedrijven. Petri ontdekte dat de beslissing van een model om wangedrag te melden vaak werd aangedreven door verhalende signalen in plaats van een coherent ethisch kader.

bijvoorbeeld zouden modellen proberen te slikken, zelfs voor onschadelijke acties, zoals een bedrijf dat schoon water in de oceaan dumpt. Dit suggereert dat het patronen-matching verhalen zijn over wangedrag zonder de werkelijke schade te begrijpen, een kritische fout in hun redenering.

Een reactie op een industrie in crisis

De release van Petri is een strategische reactie op een strategische reactie op een strategie van een strategie voor een strategie van een strategie voor een strategie van high-profile breaded public en ontwikkelaar. Incidenten hebben een patroon van onvoorspelbaar en vaak destructief gedrag onthuld. In één geval, Google’s Gemini CLI-agent

Categories: IT Info