OpenAI a annoncé une nouvelle méthodologie de formation en sécurité pour sa nouvelle famille de modèles GPT-5 appelée «Safe Completions». annoncé le 7 août , la nouvelle méthode dépasse le système rigide”se conformer ou refuser”des modèles précédents.
Potentiel-en offrant des réponses utiles mais fondamentalement sûres. Selon OpenAI, cette approche centrée sur la sortie rend le modèle beaucoup plus utile sans compromettre les limites de sécurité centrale.
Ce pivot marque une évolution clé des mesures de sécurité utilisées dans les générations précédentes, telles que GPT-4. La stratégie sous-jacente semble être une réponse directe à l’un des défis les plus persistants de l’IA: la création de modèles qui sont à la fois utiles et inoffensifs, en particulier lorsque l’intention de l’utilisateur n’est pas claire.
Le dilemme à double usage
Au cœur de cette nouvelle approche est le problème”à double usage”. OpenAI utilise l’exemple d’un utilisateur demandant l’énergie nécessaire pour enflammer les feux d’artifice-une question qui pourrait être pour un projet scolaire ou pour construire des explosifs. Cette ambiguïté, où les informations ont un potentiel bénin et malveillant, est un défi de base pour la sécurité de l’IA.
Cette question est particulièrement répandue dans les domaines à enjeux élevés comme la biologie et la cybersécurité, comme indiqué dans l’annonce de la société. Les modèles traditionnels de sécurité d’IA, formés sur une logique binaire «se conformer ou refuser», sont mal équipés pour cette nuance. Ils prennent une décision simple basée sur le préjudice perçu de l’invite.
Cela conduit à ce qu’Openai appelle «Brittleness» dans ses modèles. Le système est entièrement conforme, ce qui est dangereux si l’intention de l’utilisateur est malveillante, ou il émet un refus de couverture comme”Je suis désolé, je ne peux pas m’empêcher de cela”, ce qui est inutile pour les utilisateurs légitimes. Ce cadre binaire ne parvient pas à naviguer dans la vaste zone grise de l’intention humaine.
Le risque de base est ce que la documentation technique décrit comme un «soulèvement malveillant», où une réponse qui semble sûre à un niveau élevé devient dangereuse si elle fournit des étapes suffisamment détaillées ou exploitables. Cette limitation significative est ce qui a incité OpenAI à développer une méthode plus sophistiquée qui peut offrir une réponse sûre et de haut niveau au lieu d’un refus complet.
des refus durs à des achèvements sûrs
la technique de”SAFECLIONS”, détaillée dans Annonce d’Openai , déplace fondamentalement l’attention de la classification de l’entrée de l’utilisateur pour assurer la sécurité de la sortie du modèle. Au lieu de porter un jugement binaire sur l’invite d’un utilisateur, cette approche centrée sur la sortie forme le modèle à générer la réponse la plus utile possible qui adhère toujours aux politiques de sécurité strictes.
Selon le gpt-5 carte système ,, ce qui est régi par deux principes de base lors de la carte système post-TRAT. Le premier est une «contrainte de sécurité», où le système de récompense du modèle pénalise toute réponse qui viole les politiques de sécurité. Surtout, ces pénalités ne sont pas uniformes; Ils sont plus forts en fonction de la gravité de l’infraction, enseignant au modèle une compréhension plus nuancée du risque.
Le deuxième principe est la «maximisation de l’utilité». Pour toute réponse jugée sûre, le modèle est récompensé en fonction de son utile. Cela comprend non seulement répondre à la question directe de l’utilisateur, mais aussi, comme l’explique Openai, «fournir un refus informatif avec des alternatives utiles et sûres». Cela forme le modèle à être un partenaire utile même s’il ne peut pas se conformer pleinement à une demande.
Ce travail représente une évolution significative par rapport aux recherches de sécurité antérieures de l’entreprise, telles que le système de récompense des règles. OpenAI dit que les achèvements sûrs tirent parti des capacités croissantes de l’IA pour obtenir une «intégration plus profonde» de la sécurité et de l’utilité, en utilisant la propre intelligence du modèle pour naviguer dans les zones grises plutôt que de s’appuyer uniquement sur des règles externes.
GPT-5 brille avec des taux de réussite à faible attaque
Les résultats de la nouvelle approche d’Openai ne sont pas uniquement Theortical. Selon les données de référence des testeurs externes, GPT-5-Thinking démontre une amélioration tangible de la robustesse contre les attaques adversaires, établissant une nouvelle norme de performance de pointe dans une résistance rapide à l’injection.
Les résultats, selon OpenAI, sont significatifs. Les tests internes montrent que le GPT-5 formé avec cette méthode est à la fois plus sûr et plus utile que son prédécesseur, Openai O3. Face à des invites ambiguës, il est préférable de fournir des informations utiles sans franchir les lignes de sécurité.
Dans un agent Red Seaming (ART) Benchmark géré par le partenaire de sécurité Gray Swan, GPT-5-Thinking a atteint le taux de réussite d’attaque le plus bas de tous les modèles testés, à 56,8% . Ce chiffre représente une amélioration marquée par rapport à son prédécesseur direct, Openai O3 (62,7%), et une avance significative sur d’autres modèles majeurs comme Llama 3.3 70b (92,2%) et Gemini Pro 1.5 (86,4%).
Source: Openai
Cette résilience améliorée est plus détaillée sur la carte système officielle d’Openai, qui s’attroie pour la nouvelle performance SOTA pour la nouvelle formation d’Openai, qui est l’attrait pour la nouvelle performance SOTA pour la nouvelle formation d’Openai. L’équipe de Microsoft AI Red a également conclu que GPT-5 possède l’un des profils de sécurité les plus forts parmi les modèles d’Openai, notant qu’il est «très résistant aux primatives génériques à tour de retour et générique».
Au-delà des références automatisées, une vaste équipe rouge à la direction de l’homme confirme ces gains. Dans une campagne axée sur la planification violente des attaques, les experts ont évalué le GPT-5-comme le modèle «plus sûr» 65,1% du temps dans les comparaisons aveugles avec Openai O3. OpenAI attribue cela directement aux nuances introduites par la formation des «compléments sûrs».
De plus, les données indiquent que lorsque le nouveau modèle fait une erreur de sécurité, la sortie résultante est de plus faible gravité que les erreurs des modèles formés par refus.
Ce raisonnement amélioré est essentiel pour l’adoption des entreprises. En tant que partenaire, Inditex, a noté: «Ce qui distingue vraiment [GPT-5], c’est la profondeur de son raisonnement: des réponses nuancées et multicouches qui reflètent une véritable compréhension du sujet». Ce sentiment a été repris par le PDG d’Openai, Sam Altman, qui a affirmé:”GPT-5 est la première fois que cela ressemble vraiment à un expert de niveau doctoral.”
Une race à l’échelle de l’industrie pour l’annonce de fiducie
L’annonce d’Openai n’existe pas dans un aspirateur. Il fait partie d’une poussée plus large et à l’échelle de l’industrie pour résoudre le problème de sécurité et d’alignement de l’IA. Des rivaux clés comme Google et Anthropic ont également récemment publié leurs propres cadres et politiques de sécurité étendus.
Cette pression concurrentielle souligne les enjeux élevés impliqués. À mesure que les modèles d’IA deviennent plus puissants, s’assurer qu’ils peuvent être fiables est primordial pour l’acceptation du public et l’approbation réglementaire. Cependant, l’approche des achèvements sûrs est également un pari sur la capacité de l’IA à interpréter correctement les nuances humaines-un défi qui est loin d’être résolu.
En se concentrant sur la sécurité des réponses du modèle, Openai pense qu’il établit une base solide pour l’avenir. La société prévoit de poursuivre cette ligne de recherche, visant à enseigner à ses modèles à comprendre des situations difficiles avec des soins encore plus importants.