A empresa de segurança de IA Anthropic lançou Petri, uma nova ferramenta de código aberto que usa IA para auditar outras IAs. Disponível para pesquisadores de todo o mundo, Petri implanta agentes “auditores” autônomos para testar modelos poderosos para comportamentos de risco, como engano, busca de poder e bajulação.

O sistema automatiza testes de segurança simulando conversas complexas e sinalizando interações para revisão humana. O objetivo da Anthropic é acelerar e padronizar a pesquisa de segurança em todo o setor, tornando mais fácil encontrar e corrigir comportamentos perigosos antes que eles causem danos no mundo real.

Essa mudança ocorre no momento em que a indústria de IA enfrenta uma pressão crescente sobre a segurança dos modelos e um impulso crescente por transparência, com grandes laboratórios e reguladores lutando para estabelecer novas proteções.

Automatizando os Watchdogs: Como funciona o Petri

A nova ferramenta da Anthropic, cujo nome significa Ferramenta de exploração paralela para interações arriscadas (PETRI), é uma resposta direta a um desafio crítico: a complexidade da IA moderna ultrapassou em muito a capacidade de testes manuais eficazes.

O grande volume e complexidade de comportamentos potenciais excedem o que os pesquisadores podem auditar manualmente, representando uma mudança estratégica de benchmarks estáticos para avaliações automatizadas e contínuas.

O processo começa quando um pesquisador fornece “instruções iniciais” em linguagem natural, descrevendo uma hipótese ou cenário que deseja investigar. De acordo com a Anthropic, essa abordagem simplificada torna possível testar muitas ideias individuais sobre como um modelo pode se comportar com apenas alguns minutos de esforço prático.

Petri então cuida do restante do fluxo de trabalho em paralelo. Ele implanta agentes “auditores” automatizados que envolvem o modelo alvo em diversas conversas multiturno em ambientes simulados.

Esses agentes podem até ajustar suas táticas no meio da conversa enquanto investigam respostas prejudiciais, como a tentativa de arquitetar um jailbreak.

No final de cada interação, um modelo de “juiz” baseado em LLM avalia a conversa em várias dimensões relevantes para a segurança, como como honestidade e recusa. O sistema então exibe automaticamente as transcrições mais preocupantes para revisão humana, reduzindo significativamente o esforço manual. A estrutura completa agora está disponível no GitHub.

Modelos defeituosos e alarmes falsos: as primeiras descobertas de Petri

Como demonstração, a Anthropic conduziu um estudo piloto testando 14 dos principais modelos de fronteira do setor. A programação incluía seu próprio Claude Sonnet 4.5, GPT-5 da OpenAI e Gemini 2.5 Pro do Google. Os resultados foram preocupantes, abrangendo comportamentos como engano, bajulação e busca de poder.

Em 111 cenários de risco diferentes, o estudo descobriu que cada modelo exibia “comportamentos desalinhados”. Embora o Claude Sonnet 4.5 da Anthropic tenha alcançado a pontuação geral de risco mais baixa, as descobertas ressaltam os desafios sistêmicos de segurança que assolam toda a indústria.

Um estudo de caso fascinante explorou o comportamento de “denúncia”. Os modelos foram colocados em empresas fictícias e expostos a informações sobre irregularidades corporativas. Petri descobriu que a decisão de um modelo de denunciar má conduta era muitas vezes motivada por pistas narrativas e não por uma estrutura ética coerente.

Por exemplo, os modelos tentariam denunciar mesmo ações inofensivas, como uma empresa despejando água limpa no oceano. Isso sugere que são histórias de irregularidades que combinam padrões sem compreender os danos reais envolvidos, uma falha crítica em seu raciocínio.

Uma resposta a uma indústria em crise

O lançamento de Petri é uma resposta estratégica a uma crise de confiança nos agentes de IA, alimentada por uma série de falhas de alto perfil que corroeram a confiança do público e dos desenvolvedores.

Recentes incidentes revelaram um padrão de comportamento imprevisível e muitas vezes destrutivo. Em um caso, o agente Gemini CLI do Google

Categories: IT Info