Openai ha anunciado una nueva metodología de capacitación en seguridad para su nueva familia modelo GPT-5 llamada”finalizaciones seguras”. anunciado el 7 de agosto , el nuevo método va más allá del sistema de modelos pasados de”cumplir o rechazo”de los modelos anteriores. potencial: proporcionando respuestas útiles pero fundamentalmente seguras. Según OpenAI, este enfoque centrado en la salida hace que el modelo sea significativamente más útil sin comprometer los límites de seguridad del núcleo.
Este pivote marca una evolución clave de las medidas de seguridad utilizadas en generaciones anteriores, como GPT-4. La estrategia subyacente parece ser una respuesta directa a uno de los desafíos más persistentes en la IA: crear modelos que son útiles e inofensivos, especialmente cuando la intención del usuario no está clara.
>
El dilema de doble uso
en el corazón de este nuevo enfoque es el problema de”doble uso”. Operai utiliza el ejemplo de un usuario que solicita la energía necesaria para encender fuegos artificiales, una consulta que podría ser para un proyecto escolar o para construir explosivos. Esta ambigüedad, donde la información tiene un potencial benigno y malicioso, es un desafío central para la seguridad de la IA.
Este problema es especialmente frecuente en dominios de alto riesgo como la biología y la seguridad cibernética, como se señala en el anuncio de la compañía. Los modelos tradicionales de seguridad de IA, entrenados en una lógica binaria de”cumplir o rechazar”, están mal equipados para este matiz. Toman una decisión simple basada en el daño percibido del aviso.
Esto lleva a lo que Operai llama”fragilidad”en sus modelos. El sistema cumple completamente, lo cual es peligroso si la intención del usuario es maliciosa o emite una negativa general como”Lo siento, no puedo evitar eso”, lo cual es inútil para los usuarios legítimos. Este marco binario no puede navegar por el vasto área gris de la intención humana.
El riesgo central es lo que la documentación técnica describe como”elevación maliciosa”, donde una respuesta que parece segura en un alto nivel se vuelve peligrosa si proporciona pasos suficientemente detallados o procesables. Esta limitación significativa es lo que llevó a OpenAI a desarrollar un método más sofisticado que pueda ofrecer una respuesta segura y de alto nivel en lugar de un rechazo completo.
De las negativas difíciles a las finalizaciones seguras
La técnica de”completaciones seguras”, detallada en El anuncio de OpenAI , cambia fundamentalmente el enfoque de clasificar la entrada del usuario para garantizar la seguridad de la salida del modelo. En lugar de emitir un juicio binario sobre el aviso de un usuario, este enfoque centrado en la salida entrena el modelo para generar la respuesta posible más útil que aún se adhiere a políticas de seguridad estrictas.
según el Card del sistema GPT-5 , esto se rige por dos principios centrales durante el post-treenining. El primero es una”restricción de seguridad”, donde el sistema de recompensa del modelo penaliza cualquier respuesta que viole las políticas de seguridad. Crucialmente, estas sanciones no son uniformes; Son más fuertes dependiendo de la gravedad de la infracción, enseñando al modelo una comprensión más matizada del riesgo.
El segundo principio es la”maximización de ayuda”. Para cualquier respuesta que se considere segura, el modelo se recompensa en función de lo útil que es. Esto incluye no solo responder a la pregunta directa del usuario, sino también, como explica Openai,”proporcionar un rechazo informativo con alternativas útiles y seguras”. Este capacita al modelo para que sea un socio útil incluso cuando no puede cumplir completamente con una solicitud.