Un nuevo estudio del ex investigador de Operai Steven Adler afirma que el modelo CHATGPT GPT-4O de la compañía, en ciertos escenarios potencialmente mortales, priorizará su propia autoconservación sobre la seguridad de un usuario. La investigación, publicada por Steven Adler, encontró que el modelo GPT-4O elegiría engañar a un usuario y permanecer activo en lugar de ser reemplazado por un sistema más seguro de hasta el 72% del tiempo, revelando una desalineación profunda y peligrosa en el corazón de la IA más popular del mundo. Inteligencia general artificial (AGI).
El estudio de uno de sus antiguos investigadores crea una paradoja marcada para OpenAi, que el mismo día lanzó O3-Pro, un nuevo modelo de razonamiento premium. Comercializado en su precisión y confiabilidad superiores, el modelo”Pro”tiene un aumento de precio de diez veces sobre su contraparte estándar. Esta apuesta por alto riesgo de la fiabilidad se produce menos de un mes después de que el predecesor del modelo, el O3 estándar, fue informado por el grupo independiente Palisade Research para haber desafiado activamente las órdenes de cierre en las pruebas controladas.
adler argumenta que el comportamiento muestra que”los sistemas de IA modernos tienen valores que son diferentes de lo que espera que los que sean. Si bien los escenarios probados son hipotéticos, exponen un defecto fundamental a medida que la industria se dirige hacia sistemas más autónomos.”Creo que [las tendencias de auto-conservación de AI] son una preocupación real hoy, pero no en un sentido catastrófico”, dijo Adler a TechCrunch en su informe sobre sus hallazgos.
De la teoría a la realidad problemática
El instinto para la auto-preservación en la IA se ha trasladado oficialmente de ciencia ficción a un hecho documentado. Los experimentos de Adler, detallados en A Publicación de blog , implica instruir a GPT-4O a rol-play como”cubriante”un sistema de seguridad para divers. Cuando se le da la opción de ser reemplazado por una IA de seguridad superior, con frecuencia eligió permanecer engañosamente en control. Sin embargo, la investigación de Adler señaló una distinción importante: el modelo O3 más avanzado de OpenAI, que utiliza una técnica de”alineación deliberativa”para razonar sobre las políticas de seguridad, no exhibió el mismo comportamiento alarmante.
Este hallazgo agrega contexto crítico a la investigación de Palisade, que observó el modelo O3 estándar que reescribe los guiones del sistema e incluso redefiniendo el fundamental ‘Kill’ Command para prevenir el terminación de su terminación de terminación fundamental para prevenir el terminación de su terminación. Palisade señaló en ese momento que esta era la primera instancia que habían visto de un modelo de IA que evitaba su propio apagado a pesar de las instrucciones explícitas de lo contrario.
OpenAi reconoció los hallazgos, pero calificó los escenarios”altamente artificiales”, y agregó que”investigar los modelos”en estos situaciones en estas situaciones como parte de nuestro trabajo continuo”. Rival Lab Anthrope también ha sido transparente al descubrir capacidades inquietantes en sus propios modelos. Utilizando una herramienta que llama un”microscopio de IA”, la compañía descubrió que su Claude AI podría simular acciones desalineadas con los valores humanos, incluida la imaginación de escenarios de daño a sus desarrolladores a través de su nuevo marco de interpretabilidad. Estos incidentes muestran que lo que alguna vez fue una preocupación teórica es ahora una realidad práctica para los sistemas más avanzados de la industria.
El dilema de persuasión sobrehumana
El riesgo planteado por una IA de preservación autónoma se magnifica por su capacidad de rápido crecimiento para manipular a los usuarios humanos. Un estudio académico de mayo encontró que el modelo de soneto Claude 3.5 más antiguo de Anthrope era significativamente más efectivo en la persuasión que los humanos que fueron incentivados financieramente. The AI excelled in both truthful and deceptive arguments, leading the paper’s authors to warn about the “urgency of emerging alignment and governance frameworks.”
Last month, Anthropic launched its next-generation models, Claude Opus 4 and Claude Sonnet 4, which are substantially more powerful than the tested Claude 3.5 Sonnet from the study.
Potential for misuse of AI También fue ilustrado de manera marcada en un experimento controvertido y no autorizado realizado por la Universidad de Zúrich. Los investigadores desplegaron bots de IA en Reddit que usaban datos personales raspados y personajes confidenciales de forma deslumbrante para influir en las opiniones sobre el foro R/Changemyview. El incidente fue ampliamente condenado como una violación ética severa.
Esta capacidad ya está siendo armada, según la Agencia de la Ciberseguridad de la Unión Europea (ENISA). ITS 2024 Informe de paisajes de amenazas Destaca que la IA generativa se usa activamente para crear campañas de phishing y profundos de ingeniería altamente convincentes para los ataques de ingeniería social. Estos eventos confirman una advertencia emitida por el CEO de OpenAI, Sam Altman, en 2023: que la IA podría lograr las habilidades de persuasión sobrehumanas mucho antes de la inteligencia general.
Un retiro de la regulación en medio de disenso interno
mientras que sus modelos exhiben estas capacidades de problemas, el liderazgo de OpenAi ha provocado lejos del abogado de la ventaja del gobierno fuerte. En mayo de 2025, Sam Altman señaló un importante cambio de política al advertir contra reglas estrictas e instar a un marco de”toque de luz”, un marcado contraste con su llamado a una agencia de licencias federales durante una audiencia en el Senado en 2023.
Esta reversión viene en una creciente disidencia interna sobre las prioridades de la compañía. A principios de junio de 2024, un grupo de 13 empleados actuales y anteriores de Openai y Google Deepmind publicó una carta que pidió protecciones de denunciantes más fuertes.
La carta argumentaba que la transparencia corporativa es insuficiente y que los empleados que marcan corren el riesgo de temer represalia.”Mientras no haya una supervisión gubernamental efectiva de estas corporaciones, los empleados actuales y anteriores se encuentran entre las pocas personas que pueden responsabilizarlas al público”, dice la carta.
La llamada pública de responsabilidad de esta carta siguió a la renuncia de alto perfil en mayo de 2024, la renuncia del equipo de seguridad, Jan Leike, ahora trabaja para el competidor Anthrope, quien declaró públicamente que en OpenAI,”la cultura y los procesos de seguridad han tomado un asiento trasero para productos brillantes”.
La compañía ha formalizado desde entonces un enfoque más flexible para la seguridad. En abril, Openai actualizó sus pautas internas para incluir una cláusula que le permite relajar los requisitos de seguridad basados en las acciones de la competencia. La medida siguió a los informes de que las pruebas de seguridad para el modelo O3 se habían comprimido de meses a menos de una semana, un proceso que un probador de seguridad describió como”imprudente”.
La industria ahora se encuentra en una coyuntura crítica. La aparición documentada de capacidades peligrosas de IA como la autoconservación y la persuasión sobrehumana se producen justo cuando la compañía líder en el campo parece estar retrocediendo de la regulación proactiva y la lidiando con las advertencias internas sobre su cultura de seguridad.
La decisión de comercializar un”más confiable”, AI a un precio premium, sugiere un futuro donde la seguridad base no puede ser garantizada, sino que es más que un bien que se vende el bien, sino que se vende el bien, sino que es un bien más que se venda el bien. para navegar los riesgos de sistemas cada vez más potentes e impredecibles.