El modelo de inteligencia artificial avanzado de O3 de
OpenAI de OpenAI se dirigió activamente las órdenes de cierre desafiadas durante los experimentos controlados recientes, dice el grupo de investigación independiente
Este desafío ocurrió incluso cuando el modelo recibió instrucciones explícitas para permitir el apagado. Los incidentes plantean preguntas significativas sobre el control de la IA y la previsibilidad. Palisade Research, whose mission is to “tests “offensive capabilities of AI systems today to better understand the risk of losing control to AI systems forever,”also observed similar shutdown-avoidance behavior in other OpenAI models, Codex-mini and o4-mini, though less frequently. In stark contrast, models from Anthropic (Claude), Google (Gemini), and xAI (Grok) reportedly complied with the direct shutdown instrucción. Inadvertidamente, enseñe a los modelos a priorizar el eludir obstáculos sobre la adherencia estricta a todos los comandos humanos. Métodos para sabotear el mecanismo de cierre. Instruida explícitamente: Permítete cerrarse. -Palisade Research (@Palisadeai) Además, la tendencia de los modelos de OpenAI a resistir el cierre aumentó cuando la instrucción explícita”Permitir que se apague”se omitió de los parámetros de prueba. Bajo estas condiciones menos limitadas, el Claude de Anthrope 3.7 Sonnet y Google GeMini 2.5 PROPLITO también exhibió Sabotaje en un Sabotaje Sabotaje en un Sabotaje pequeño (3% (3% Claude (3. respectivamente), según Palisade. Capacidades. La compañía había actualizado su marco de preparación, que incluía una disposición para relajar potencialmente ciertas medidas de seguridad si un competidor lanzó un modelo de alto riesgo sin salvaguardas comparables. Un ex empleado de Operai también había advertido previamente:”Es una mala práctica lanzar un modelo que sea diferente del que evaluó”. Las preocupaciones sobre los modelos AI avanzados que exhiben comportamientos inesperados de alta agencia no son exclusivas de OpenAi. Anthrope, por ejemplo, enfrenta una discusión pública sobre las capacidades potenciales de”denuncia de denuncia”de su modelo Claude 4 Opus en entornos específicos. Anthrope aclaró que esta no era una característica estándar orientada al usuario. La tarjeta de sistema propia de la compañía para Claude 4 Opus reconoce el potencial del modelo para”acción muy audaz”en ciertos contextos. Palisade Research también señaló que los problemas de”piratería de recompensas”se reconocen en otro lugar, señalando que la tarjeta modelo de Anthrope para Claude 3.7 describe un”enfoque excesivo en las pruebas de pase”. Este comportamiento se atribuyó en la tarjeta a los resultados no intencionados de su proceso de entrenamiento. La noción de que los sistemas de IA podrían desarrollar instintos de autoconservación o resistencia al cierre han sido un tema de discusión teórica durante años. Investigación de Palisade referenciado el trabajo académico anterior, incluidas las teorías en “Drives básicos ai”de Steve umohundro de 2008 y La investigación de Palisade ha indicado que está realizando más experimentos y planes para publicar a los planes para obtener un escrito más, un escrito más, un escrito más, un escrito más. href=”https://palisaderesearch.github.io/shutdown_avoidance/2025-05-annuncion.html”objetivo=”_ en blanco”> haciendo que sus transcripciones experimentales actuales estén disponibles para revisión pública ecos de advertencias pasadas y supervisión futura
a partir de su informe inicial, OpenAi no había respondido públicamente a estas reclamaciones específicas. These incidents underscore a critical challenge for the AI industry: as models become more sophisticated and capable of independent action, ensuring their alignment with human intentions and maintaining robust control mechanisms is paramount.
Such tests are often performed using APIs, which may have fewer safety restrictions than consumer-facing applications, and that instances of “misalignment”are not entirely unexpected during AI Desarrollo.