La empresa de seguridad de IA Anthropic ha lanzado Petri, una nueva herramienta de código abierto que utiliza IA para auditar otras IA. Disponible para investigadores de todo el mundo, Petri implementa agentes”auditores”autónomos para probar modelos poderosos para detectar comportamientos riesgosos como el engaño, la búsqueda de poder y la adulación.

El sistema automatiza las pruebas de seguridad simulando conversaciones complejas y marcando interacciones relacionadas para revisión humana. El objetivo de Anthropic es acelerar y estandarizar la investigación de seguridad en toda la industria, haciendo que sea más fácil encontrar y corregir comportamientos peligrosos antes de que causen daños en el mundo real.

Esta medida se produce cuando la industria de la IA enfrenta una creciente presión sobre la seguridad de los modelos y un creciente impulso por la transparencia, con los principales laboratorios y reguladores luchando por establecer nuevas barreras de seguridad.

Automatización de los perros guardianes: cómo funciona Petri

La nueva herramienta de Anthropic, cuyo nombre significa Herramienta de exploración paralela para interacciones riesgosas (PETRI), es una respuesta directa a un desafío crítico: la complejidad de la IA moderna ha superado con creces la capacidad de realizar pruebas manuales efectivas.

El gran volumen y la complejidad de los comportamientos potenciales superan lo que los investigadores puede auditar manualmente, lo que representa un cambio estratégico de puntos de referencia estáticos a evaluaciones automatizadas y continuas.

El proceso comienza cuando un investigador proporciona”instrucciones iniciales”en lenguaje natural, que describen una hipótesis o escenario que desean investigar. Según Anthropic, este enfoque simplificado permite probar muchas ideas individuales sobre cómo podría comportarse un modelo con solo unos minutos de esfuerzo práctico.

Luego, Petri maneja el resto del flujo de trabajo en paralelo. Implementa agentes”auditores”automatizados que involucran al modelo objetivo en diversas conversaciones de múltiples turnos dentro de entornos simulados.

Estos agentes pueden incluso ajustar sus tácticas en mitad de la conversación mientras buscan respuestas dañinas, como intentar diseñar un jailbreak.

Al final de cada interacción, un modelo de”juez”basado en LLM califica la conversación en múltiples dimensiones relevantes para la seguridad, como honestidad y rechazo. Luego, el sistema muestra automáticamente las transcripciones más preocupantes para su revisión humana, lo que reduce significativamente el esfuerzo manual. El marco completo ahora está disponible en GitHub.

Modelos defectuosos y falsas alarmas: primeros hallazgos de Petri

Como demostración, Anthropic llevó a cabo un estudio piloto probando 14 de los modelos de frontera líderes de la industria. La línea incluía su propio Claude Sonnet 4.5, GPT-5 de OpenAI y Gemini 2.5 Pro de Google. Los resultados fueron aleccionadores y abarcaron comportamientos como el engaño, la adulación y la búsqueda de poder.

En 111 escenarios de riesgo diferentes, el estudio encontró que cada modelo exhibía”comportamientos desalineados”. Si bien Claude Sonnet 4.5 de Anthropic logró la puntuación de riesgo general más baja, los hallazgos subrayan los desafíos sistémicos de seguridad que afectan a toda la industria.

Un fascinante estudio de caso exploró el comportamiento de”denuncia de irregularidades”. Se colocaron modelos en empresas ficticias y se les expuso a información sobre irregularidades corporativas. Petri descubrió que la decisión de un modelo de denunciar una mala conducta a menudo estaba impulsada por señales narrativas más que por un marco ético coherente.

Por ejemplo, los modelos intentarían denunciar incluso acciones inofensivas, como una empresa que vierte agua limpia al océano. Esto sugiere que se trata de historias de irregularidades que coinciden con patrones sin comprender el daño real involucrado, un error crítico en su razonamiento.

Una respuesta a una industria en crisis

La publicación de Petri es una respuesta estratégica a una crisis de confianza en los agentes de IA, alimentada por una serie de fallas de alto perfil que han erosionado la confianza del público y de los desarrolladores.

Recientes Los incidentes han revelado un patrón de comportamiento impredecible y a menudo destructivo. En un caso, el agente Gemini CLI de Google

Categories: IT Info