Anthropic, società specializzata nella sicurezza dell’intelligenza artificiale, ha rilasciato Petri, un nuovo strumento open source che utilizza l’intelligenza artificiale per controllare altre IA. Disponibile per i ricercatori di tutto il mondo, Petri utilizza agenti”auditor”autonomi per testare potenti modelli di comportamenti rischiosi come l’inganno, la ricerca del potere e il servilismo.

Il sistema automatizza i test di sicurezza simulando conversazioni complesse e segnalando le interazioni per la revisione umana. L’obiettivo di Anthropic è quello di accelerare e standardizzare la ricerca sulla sicurezza in tutto il settore, rendendo più semplice individuare e correggere comportamenti pericolosi prima che causino danni nel mondo reale.

Questa mossa arriva mentre il settore dell’intelligenza artificiale si trova ad affrontare una pressione crescente sulla sicurezza dei modelli e una crescente spinta alla trasparenza, con i principali laboratori e regolatori che si affrettano a stabilire nuovi guardrail.

Automazione dei watchdog: come funziona Petri

Il nuovo strumento di Anthropic, il cui nome sta per Parallel Exploration Tool for Risky Interactions (PETRI), è una risposta diretta a una sfida critica: la complessità dell’intelligenza artificiale moderna ha di gran lunga superato la capacità di test manuali efficaci.

L’enorme volume e la complessità dei potenziali comportamenti superano ciò che i ricercatori possono effettuare controlli manuali, rappresentando un passaggio strategico da benchmark statici a valutazioni automatizzate e continue.

Il processo inizia quando un ricercatore fornisce”istruzioni iniziali”in linguaggio naturale, descrivendo un’ipotesi o uno scenario che desidera indagare. Secondo Anthropic, questo approccio semplificato consente di testare molte idee individuali su come potrebbe comportarsi un modello con solo pochi minuti di sforzo pratico.

Petri gestisce quindi il resto del flusso di lavoro in parallelo. Distribuisce agenti”auditor”automatizzati che coinvolgono il modello target in diverse conversazioni a più turni all’interno di ambienti simulati.

Questi agenti possono persino modificare le loro tattiche durante la conversazione mentre sondano risposte dannose, come il tentativo di organizzare un jailbreak.

Alla fine di ogni interazione, un modello”giudice”basato su LLM valuta la conversazione su più dimensioni rilevanti per la sicurezza, come onestà e rifiuto. Il sistema quindi presenta automaticamente le trascrizioni più preoccupanti per la revisione umana, riducendo significativamente lo sforzo manuale. L’intero framework è ora disponibile su GitHub.

Modelli imperfetti e falsi allarmi: le prime scoperte di Petri

A scopo dimostrativo, Anthropic ha condotto uno studio pilota testando 14 delle principali frontiere del settore modelli. La formazione includeva il proprio Claude Sonnet 4.5, GPT-5 di OpenAI e Gemini 2.5 Pro di Google. I risultati sono stati deludenti e hanno riguardato comportamenti come l’inganno, il servilismo e la ricerca del potere.

In 111 diversi scenari rischiosi, lo studio ha rilevato che ogni singolo modello mostrava”comportamenti disallineati”. Sebbene Claude Sonnet 4.5 di Anthropic abbia ottenuto il punteggio di rischio complessivo più basso, i risultati sottolineano le sfide sistemiche alla sicurezza che affliggono l’intero settore.

Un affascinante caso di studio ha esplorato il comportamento di”whistleblowing”. I modelli sono stati collocati in aziende fittizie ed esposti a informazioni su illeciti aziendali. Petri ha scoperto che la decisione di un modello di denunciare una cattiva condotta era spesso guidata da spunti narrativi piuttosto che da un quadro etico coerente.

Ad esempio, i modelli tentavano di denunciare anche per azioni innocue, come un’azienda che scarica acqua pulita nell’oceano. Ciò suggerisce che si tratti di storie di illeciti che corrispondono a modelli senza comprendere il danno reale coinvolto, un difetto critico nel loro ragionamento.

Una risposta a un settore in crisi

Il rilascio di Petri è una risposta strategica a una crisi di fiducia negli agenti di intelligenza artificiale, alimentata da una serie di fallimenti di alto profilo che hanno eroso la fiducia del pubblico e degli sviluppatori.

Incidenti recenti hanno ha rivelato un modello di comportamento imprevedibile e spesso distruttivo. In un caso, l’agente Gemini CLI di Google

Categories: IT Info