Openai ha anunciado una nueva metodología de capacitación en seguridad para su nueva familia modelo GPT-5 llamada”finalizaciones seguras”. anunciado el 7 de agosto , el nuevo método va más allá del sistema de modelos pasados de”cumplir o rechazo”de los modelos anteriores. potencial: proporcionando respuestas útiles pero fundamentalmente seguras. Según OpenAI, este enfoque centrado en la salida hace que el modelo sea significativamente más útil sin comprometer los límites de seguridad del núcleo.

Este pivote marca una evolución clave de las medidas de seguridad utilizadas en generaciones anteriores, como GPT-4. La estrategia subyacente parece ser una respuesta directa a uno de los desafíos más persistentes en la IA: crear modelos que son útiles e inofensivos, especialmente cuando la intención del usuario no está clara.

>

El dilema de doble uso

en el corazón de este nuevo enfoque es el problema de”doble uso”. Operai utiliza el ejemplo de un usuario que solicita la energía necesaria para encender fuegos artificiales, una consulta que podría ser para un proyecto escolar o para construir explosivos. Esta ambigüedad, donde la información tiene un potencial benigno y malicioso, es un desafío central para la seguridad de la IA.

Este problema es especialmente frecuente en dominios de alto riesgo como la biología y la seguridad cibernética, como se señala en el anuncio de la compañía. Los modelos tradicionales de seguridad de IA, entrenados en una lógica binaria de”cumplir o rechazar”, están mal equipados para este matiz. Toman una decisión simple basada en el daño percibido del aviso.

Esto lleva a lo que Operai llama”fragilidad”en sus modelos. El sistema cumple completamente, lo cual es peligroso si la intención del usuario es maliciosa o emite una negativa general como”Lo siento, no puedo evitar eso”, lo cual es inútil para los usuarios legítimos. Este marco binario no puede navegar por el vasto área gris de la intención humana.

El riesgo central es lo que la documentación técnica describe como”elevación maliciosa”, donde una respuesta que parece segura en un alto nivel se vuelve peligrosa si proporciona pasos suficientemente detallados o procesables. Esta limitación significativa es lo que llevó a OpenAI a desarrollar un método más sofisticado que pueda ofrecer una respuesta segura y de alto nivel en lugar de un rechazo completo.

De las negativas difíciles a las finalizaciones seguras

La técnica de”completaciones seguras”, detallada en El anuncio de OpenAI , cambia fundamentalmente el enfoque de clasificar la entrada del usuario para garantizar la seguridad de la salida del modelo. En lugar de emitir un juicio binario sobre el aviso de un usuario, este enfoque centrado en la salida entrena el modelo para generar la respuesta posible más útil que aún se adhiere a políticas de seguridad estrictas.

según el Card del sistema GPT-5 , esto se rige por dos principios centrales durante el post-treenining. El primero es una”restricción de seguridad”, donde el sistema de recompensa del modelo penaliza cualquier respuesta que viole las políticas de seguridad. Crucialmente, estas sanciones no son uniformes; Son más fuertes dependiendo de la gravedad de la infracción, enseñando al modelo una comprensión más matizada del riesgo.

El segundo principio es la”maximización de ayuda”. Para cualquier respuesta que se considere segura, el modelo se recompensa en función de lo útil que es. Esto incluye no solo responder a la pregunta directa del usuario, sino también, como explica Openai,”proporcionar un rechazo informativo con alternativas útiles y seguras”. Este capacita al modelo para que sea un socio útil incluso cuando no puede cumplir completamente con una solicitud.

Este trabajo representa una evolución significativa de la investigación de seguridad previa de la compañía, como

GPT-5 brilla con bajas tasas de éxito de ataque

Los resultados del nuevo enfoque de seguridad de OpenAi no son solo los boséticos de la seguridad de OpenAi. Según los datos de referencia de probadores externos, el pensamiento GPT-5 demuestra una mejora tangible en la robustez contra los ataques adversos, lo que establece un nuevo estándar de rendimiento de última generación en resistencia a la inyección inmediata.

Los resultados, según OpenAi, son significativos. Las pruebas internas muestran que GPT-5 entrenado con este método es más seguro y más útil que su predecesor, OpenAI O3. Cuando se enfrenta a las indicaciones ambiguas, es mejor proporcionar información útil sin cruzar líneas de seguridad.

en un punto de referencia de Teaming (ART) de agente de agente dirigido por el socio de seguridad Gray Swan, el pensamiento GPT-5 logró la tasa de éxito de ataque más baja de todos los modelos probados, en 56.8%. Esta cifra representa una mejora marcada sobre su predecesor directo, OpenAI O3 (62.7%), y un plomo significativo sobre otros modelos principales como LLAMA 3.3 70B (92.2%) y Gemini Pro 1.5 (86.4%).

Fuente: OpenAI

Esta respuesta mejorada se detalla más a fondo en la tarjeta del sistema OpenAI, qué atributos de Sota a los atributos al nuevo rendimiento de la SOTA a los nuevos atributos a los nuevos atributos a los nuevos atributos a los nuevos atributos a los nuevos atributos a los nuevos atributos. El equipo rojo de Microsoft AI también concluyó que GPT-5 tiene uno de los perfiles de seguridad más fuertes entre los modelos de OpenAI, señalando que es”altamente resistente a los jailbreaks genéricos y genéricos”.

Más allá de los puntos de referencia automatizados, un extenso equipo rojo dirigido por humanos confirma estas ganancias. En una campaña centrada en la planificación violenta de ataque, los expertos calificaron el pensamiento GPT-5 como el modelo”más seguro”65.1% del tiempo en comparaciones ciegas contra OpenAI O3. Openai atribuye esto directamente a los matices introducidos por el entrenamiento de”finalizaciones seguras”.

Además, los datos indican que cuando el nuevo modelo comete un error de seguridad, la salida resultante es de menor gravedad que los errores de los modelos entrenados por rechazo. 

Este razonamiento mejorado es crítico para la adopción empresarial. Como un socio, Inditex, señaló:”Lo que realmente distingue [GPT-5] es la profundidad de su razonamiento: respuestas matizadas y de varias capas que reflejan la comprensión real de la materia real”. El CEO de Operai, Sam Altman, que afirmó:”GPT-5 es la primera vez que realmente se siente como hablar con un experto en nivel de doctorado”. Es parte de un impulso más amplio en toda la industria para resolver el problema de seguridad y alineación de la IA. Los rivales clave como Google y Anthrope también han publicado recientemente sus propios marcos y políticas de seguridad.

Esta presión competitiva subraya las altas apuestas involucradas. A medida que los modelos de IA se vuelven más poderosos, asegurar que se puedan confiar en que sea primordial para la aceptación pública y la aprobación regulatoria. Sin embargo, el enfoque de finalización segura también es una apuesta sobre la capacidad de la IA para interpretar correctamente los matices humanos, un desafío que está lejos de resolverse.

al centrarse en la seguridad de las respuestas del modelo, OpenAi cree que está estableciendo una base sólida para el futuro. La compañía planea continuar esta línea de investigación, con el objetivo de enseñar a sus modelos a comprender situaciones desafiantes con una atención aún mayor.