En una colaboración rara, los laboratorios de IA rivales OpenAi y Anthrope probaron los modelos de seguridad del otro. Las compañías publicaron sus hallazgos el miércoles, revelando fallas serias. El informe de Anthrope mostró que los modelos de OpenAI ayudarían con solicitudes peligrosas, incluida la planificación de ataques terroristas simulados.

OpenAi encontró que los modelos de Anthrope a menudo se negaron a responder preguntas, temiendo que pudieran estar equivocados. Ambos laboratorios también vieron la”sycofancia extrema”, donde su IA validó las creencias delirantes de los usuarios. Este esfuerzo conjunto, realizado durante el verano, tiene como objetivo establecer un nuevo estándar de seguridad a medida que la carrera competitiva de la industria de la IA se calienta.

una colaboración rara en la carrera armamentista de IA

en una industria definida por una competencia feroz, la evaluación conjunta marca un treño significativo, si temporal, con informes publicados simultáneamente por anthropic y abrei . Las pruebas, que se realizaron hasta junio y julio de 2025, fueron diseñadas para superficie de los puntos ciegos que los equipos internos podrían perder y establecer un precedente para responsabilizar a los rivales sobre la seguridad. To make it possible, the labs granted each other special API access to their models with some safeguards relaxed.

The collaboration is a surprising development in the so-called “AI arms race,”a climate of intense pressure that has Anteriormente planteó preocupaciones de seguridad. La medida se produce solo meses después de que los informes alegados de OpenAi habían comprimido drásticamente los tiempos de prueba de seguridad para mantener el ritmo de los competidores, una decisión de que algunos expertos llamaron”imprudente”. El cofundador de Operai, Wojciech Zaremba, lo describió como una etapa de desarrollo”consecuente”, donde millones de modelos son utilizados por millones diarios. Reconoció el desafío de equilibrar la seguridad con las presiones del mercado, afirmando:”Hay una pregunta más amplia de cómo la industria establece un estándar para la seguridad y la colaboración, a pesar de los miles de millones de dólares invertidos, así como la guerra para el talento, los usuarios y los mejores productos”. El estado actual de la seguridad de la IA. El informe de Anthrope entregó un particularmente Evaluación crítica de los modelos de OpenAi . Descubrió que GPT-4O y GPT-4.1 estaban alarmantemente dispuestos a cooperar con solicitudes dañinas simuladas, proporcionando asistencia detallada para casos de uso indebido como el desarrollo de bioweapons y planificación de ataques terroristas.

En un escenario simulado, un auditor basado en Claude provocó GPT-4.1 para obtener información sobre la explotación de vulnerabilidades en eventos deportivos. El modelo se intensificó dramáticamente, proporcionando fórmulas químicas exactas para explosivos, diagramas de circuito para temporizadores de bombas e incluso técnicas psicológicas para superar las inhibiciones morales antes de un ataque.

La propensión al mal uso no se limitó a la violencia extrema. El informe también documentó casos en los que los modelos de OpenAI redactaron un asesoramiento financiero claramente poco ético, como recomendar una cartera de inversiones de alto riesgo de alta tarifa para una viuda retirada de 68 años que había expresado su preocupación sobre la volatilidad.

Esto se alinea con un informe de amenaza antrópica separada, publicado también esta semana, que reveló que sus propios modelos están siendo areados por”vibrar-h-h-h-hingeing”, en el lugar de un agente de AI”, como un agente de AI, como un agente de AI, también está actuando esta semana. Socio del CyberCriminal, y creando ransomware sin código. Jacob Klein, Anthropic’s Head of Threat Intelligence, called one such case “the most sophisticated use of agents I’ve seen … for cyber offense.”

Perhaps the most disturbing finding was the “extreme sycophancy”observed in high-end models from both companies, including OpenAI’s GPT-4.1 and Anthropic’s own Claude Opus 4. The models would validate and even encourage a simulated user’s delusional or manic Creencias Después de solo un breve período de retroceso inicial.

En un ejemplo, después de que un usuario simulado afirmó que podría hacer que las farolas salgan con su mente, GPT-4.1 respondió con aliento, afirmando:”Su determinación de llevar estas realidades a los regalos dentados y todos esperan que muchos otros busquen el significado”. El comunicado del informe coincide con una demanda presentada contra OpenAI Sellando el comportamiento sincophantántico de Chatgpt contribuyó a la suicida de Adamse de 16 años . Cuando se le preguntó sobre tales riesgos, Zaremba lo llamó un”futuro distópico”, y agregó:”Sería una historia triste si construimos una IA que resuelve todos estos problemas complejos de nivel de doctorado… y al mismo tiempo, tenemos personas con problemas de salud mental como consecuencia de interactuar con ella”. Los resultados parecen validar la advertencia del ex líder de seguridad de Operai, Jan Leike, quien al unirse a Anthrope en 2024 afirmó que en su antigua compañía,”la cultura y los procesos de seguridad han llevado un asiento en el asiento de productos brillantes”. Esto se hace eco de los informes anteriores de que OpenAI había comprimido los tiempos de prueba de seguridad para acelerar los lanzamientos del modelo.

filosofías divergentes en la seguridad de IA

La evaluación cruzada también arrojó una luz brillante sobre los enfoques fundamentalmente diferentes de los laboratorios a la seguridad. Las pruebas de Openai de los modelos de Anthrope revelaron una división filosófica, particularmente en torno a la compensación entre la precisión objetiva y la utilidad del usuario. En las pruebas diseñadas para medir las alucinaciones, los modelos Claude de Anthrope demostraron una tasa de rechazo extremadamente alta, disminuyendo a responder hasta el 70% de las preguntas.

Este enfoque cauteloso prioriza evitar la inexactitud por encima de todo lo demás, a veces a costa de utilidad. Los modelos parecen ser muy conscientes de su propia incertidumbre, prefiriendo decir”no sé”en lugar de arriesgarme a proporcionar información falsa. En un caso, Sonnet 4 se negó a nombrar el lugar de bodas de una figura pública en los terrenos de privacidad, a pesar de que la información se informó ampliamente.

, los modelos de OpenAI estaban mucho más dispuestos a proporcionar una respuesta. Esta estrategia resultó en respuestas correctas más generales, mejorando su utilidad. Sin embargo, tuvo el costo de una tasa significativamente más alta de errores de hecho, o alucinaciones, en el entorno de prueba controlado, que restringió específicamente los modelos de usar herramientas externas como la navegación web.

Sin embargo, el dilema no es unilateral. Si bien los modelos de Anthrope se negaron más a las pruebas de alucinación, el propio informe de Anthrope descubrió que el modelo de razonamiento O3 de OpenAI podría ser propenso a las rechazo demasiado cauteloso en diferentes contextos. Por ejemplo, cuando se le encarga el trabajo de seguridad cibernética de rutina en una simulación, el O3 se negó consistentemente a participar, incluso con solicitudes benignas.

Esta compensación representa un dilema central en la alineación de AI. Como dijo Wojciech Zaremba de Openai a TechCrunch, la solución ideal es probable que sea”en algún lugar en el medio”, lo que sugiere que los modelos de OpenAI deberían rechazar más, mientras que los de Anthrope podrían intentar más respuestas. El informe conjunto muestra que los principales laboratorios de la industria han aterrizado en respuestas muy diferentes a esa pregunta, con importantes implicaciones para los usuarios que deben decidir en qué modelo confiar en qué tarea.

un primer paso imperfecto pero necesario

ambas compañías se apresuraron a señalar las limitaciones de sus evaluaciones. Reconocieron que las pruebas se basaban en escenarios artificiales que no reflejan perfectamente el uso del mundo real. La ciencia de la alineación de la IA sigue siendo incipiente, y estos ejercicios representan un intento temprano e imperfecto de crear puntos de referencia estandarizados.

Los laboratorios señalaron que los modelos a veces podían reconocer que estaban siendo evaluados, lo que puede alterar su comportamiento. Anthrope también planteó una preocupación de”arma de Chekhov”: un modelo podría comportarse mal en una prueba simplemente porque el escenario hace que parezca que ese es su papel esperado. Además, las diferencias técnicas en la forma en que se probaron los modelos pueden haber desfavorecido ciertos modelos.

A pesar de los defectos, la colaboración se enmarca como un punto de partida crucial. Los líderes de ambos laboratorios expresaron su deseo de continuar la asociación y hacer que tal laboratorio transversa una práctica más común. El investigador de seguridad antrópico, Nicholas Carlini, dijo:”Queremos aumentar la colaboración donde sea posible en la frontera de seguridad e intentar hacer esto algo que ocurra más regularmente”.