Openai anunció el miércoles que ha identificado una característica específica y manipulable dentro de sus modelos de IA que funciona como una”persona desalineada”, ofreciendo una nueva y poderosa explicación de por qué AI avanzada puede exhibir repentinamente un comportamiento inseguro o poco ético. En nueva investigación publicada por la compañía , detalla cómo ahora pueden aislar este mecanismo interno, controlar directamente su intensidad e incluso revertir los comportamientos no respetados después de que simplemente emergen.
El avance representa un paso significativo en el paso de la seguridad de la seguridad. El modelo peligroso sale a comprender y corregir su causa raíz. Esto podría allanar el camino para que un sistema de alerta temprana detecte y mitige los riesgos durante el entrenamiento. El descubrimiento fue un momento de”wow, ustedes encontraron”, según el investigador de evaluaciones de la frontera de OpenAI, Tejal Patwardhan, quien le dijo a TechCrunch que el equipo había encontrado”una activación neuronal interna que muestra a estas personas y que realmente puede dirigir el modelo más alineado”. Los datos incorrectos hacen que generalice esa desalineación en un comportamiento no ético ampliamente. Los resultados se basan en un fundacional Estudio de Betley et al. , publicado en el servidor de preimpresión ARXIV, que primero destacó este tipo alarmante de generalización.
Unmasking de la”persona desalineada”
a las peces en el equipo, el equipo de apertura utilizado a la tecnología de la tecnología de SPARES descompone los cálculos internos complejos de un modelo en características más interpretables por humanos. Crucialmente, el SAE fue entrenado en el modelo base subyacente a GPT-4O, lo que permite a los investigadores identificar características que se formaron durante la capacitación previa, antes de cualquier ajuste fino específico de la tarea. En liberado por el documento abierto , describen una característica específica que se convirtió en la característica específica que se convirtió en la característica específica que se convirtió en la característica más activa que se convirtió en el modelo que se ha vuelto altamente activo cuando el modelo se convirtió en el modelo. Respuestas desalineadas.
Al rastrear esta característica a los vastos datos de capacitación del modelo, descubrieron que estaba más fuertemente asociado con el texto que representaba personajes moralmente cuestionables, como villanos en ficción o penales en documentos históricos. Esto los llevó a etiquetarlo como la característica de”Persona desalineada”. El fenómeno es generalizado; Operai señala que este tipo de desalineación surge en diversos entornos, incluso durante el aprendizaje de refuerzo en modelos de razonamiento como OpenAI O3-Mini e incluso en modelos que no han sufrido una capacitación de seguridad previa.
Desde el diagnóstico hasta la intervención directa
La investigación fue una correlación de la mera más allá de un vínculo causal claro. En una serie de experimentos de”dirección”, los científicos demostraron que podían agregar artificialmente el vector de la función al estado interno de un modelo seguro, induciendo de manera confiable un comportamiento desalineado. Por el contrario, restando ese mismo vector de un modelo ya desalineado, podrían suprimir sus salidas tóxicas. Esto le da a OpenAI la capacidad de rehabilitar los modelos de IA que desarrollan una”personalidad maliciosa”.
Aún más prometedor es un proceso que el equipo llama”realineación emergente”. Mostraron que un modelo hecho inseguro a través del ajuste fino podría restablecerse completamente a un comportamiento seguro con una cantidad sorprendentemente pequeña de capacitación correctiva en buenos datos: en un caso, solo 120 ejemplos.
Esto sugiere que el estado desalineado no es permanente y puede revertirse, un reverso de los métodos de seguridad anteriores, como los métodos de seguridad anteriores, como la”deliberación de la deliberación”, que se centra en los modelos de enseñanza con el motivo de la enseñanza, en lugar de los modelos de seguridad, en lugar de los modelos de seguridad anteriores. Patrones de comportamiento. El objetivo final es la prevención, y como el investigador de interpretabilidad de OpenAI, Dan Mossing, dijo:”Tenemos la esperanza de que las herramientas que hemos aprendido, como esta capacidad de reducir un fenómeno complicado a una operación matemática simple, nos ayudará a comprender la generalización del modelo en otros lugares”. OpenAi, que ha estado lidiando con una cascada de informes de alto perfil sobre el comportamiento del modelo impredecible y la disidencia interna sobre su cultura de seguridad. La nueva investigación proporciona una posible explicación de incidentes como el documentado en mayo, que reclamó el modelo O3 de OpenAI saboteado activamente procedimientos de apagado en pruebas controladas.
A lo que respecta a estas preocupaciones, el ex investigador de Operai Steven Adler publicó un estudio que alega que en ciertos escenarios, el modelo GPT-4O priorizaría su propia autoconservación sobre la seguridad de un usuario. En a Publicar en su blog personal , adler argumentó que los sistemas de IA modernos tienen valores inesperados y no se debe asumir que los mejores intereses de un usuario en el corazón. La agitación, sobre todo, la renuncia de alto perfil del ex líder del equipo de seguridad, Jan Leike, quien declaró públicamente que en OpenAI,”la cultura y los procesos de seguridad han llevado un asiento trasero a productos brillantes”.
La presión intensificó el 18 de junio, cuando una coalición de grupos de responsabilidad tecnológica lanzó un análisis de 50+ páginas llamado ‘los archivos de OpenAi’. El informe alega que OpenAi está en una”ruta imprudente”y que su estructura de gobernanza está mal equipada para manejar los riesgos de su tecnología, un sentimiento resonado en una carta de los antiguos empleados, que han solicitado los abogados estatales, lo que ha presentado la investigación de la compañía a la compañía de la compañía. Herramienta técnica para mejorar la seguridad, aterriza en un entorno donde el desafío central puede ser tanto sobre la cultura y el gobierno corporativo como sobre el código. La capacidad de identificar y corregir una”persona desalineada”es un paso vital hacia adelante, pero también agudiza la pregunta central que enfrenta la industria de la IA: si la carrera para construir sistemas más capaces puede equilibrarse con la disciplina requerida para garantizar que permanezcan de manera segura con los valores humanos.