Openai a annoncé mercredi avoir identifié une fonctionnalité spécifique et manipulable à l’intérieur de ses modèles d’IA qui fonctionne comme une «personnalité mal alignée», offrant une nouvelle explication puissante pour expliquer pourquoi Advanced IA peut soudainement présenter un comportement non sûr ou contraire à l’éthique. Dans Nouvelles recherches publiées par la société , il détaille comment ils peuvent désormais isoler ce mécanisme interne, contrôler directement son intensité, et même inverser les comportements indéfecteurs après leur émergence. Observer les sorties du modèle dangereux pour comprendre et corriger leur cause profonde. Cela pourrait ouvrir la voie à un système d’alerte précoce pour détecter et atténuer les risques pendant la formation. La découverte était un moment”wow, vous l’avez trouvé”, selon le chercheur d’Openai Frontier Evaluations, Tejal Patwardhan, qui a dit à TechCrunch que l’équipe avait trouvé”une activation neuronale interne qui montre ces personnages et que vous pouvez réellement diriger le modèle plus aligné”. Des données incorrectes les font généraliser ce désalignement en comportement largement contraire à l’éthique. Les résultats s’appuient sur un fondationnel par Betley et al. , publié sur le serveur de préparation Arxiv, qui a d’abord mis en évidence ce type alarmant de généralisation.
démasquant la «personnalité mal alignée»
pour être profondément à l’intérieur de ses modèles, a utilisé une technique impliquant des autoenders de la diffusion (SAE), qui a démissité une technique impliquant une autoencoders de la diffusion (SAE), qui a démissité une technique impliquant une autoencoders de la diffusion (SAE), qui a démissité une technique impliquant une autoencoders de la diffusion (SAE), qui a démissité une technique impliquant une autoencoders de la diffusion (SAE), qui a démissité une technique impliquant une autoencoders de la diffusion SPARSE (SAE). Les calculs internes complexes du modèle en caractéristiques plus interprétables de l’homme. Surtout, le SAE a été formé sur le modèle de base sous-jacent au GPT-4O, permettant aux chercheurs d’identifier les fonctionnalités qui se sont formées pendant la pré-formation, avant tout réglage fin spécifique à la tâche. In the full paper released by OpenAI, they describe finding a specific feature that became highly active when the model produced Réponses mal alignées.
En retracant cette fonctionnalité aux vastes données de formation du modèle, ils ont découvert qu’il était le plus fortement associé au texte représentant des caractères moralement discutables, tels que les méchants dans la fiction ou les criminels dans des documents historiques. Cela les a amenés à l’étiqueter la fonctionnalité «Persona mal alignée». Le phénomène est omniprésent; OpenAI note que ce type de désalignement émerge dans divers contextes, notamment pendant l’apprentissage du renforcement sur des modèles de raisonnement comme Openai O3-MinI et même sur des modèles qui n’ont pas suivi une formation préalable en matière de sécurité.
De diagnostic à une intervention directe
La recherche est allée au-delà de la simple corrélation pour établir un lien causal clair. Dans une série d’expériences de «direction», les scientifiques ont démontré qu’ils pouvaient ajouter artificiellement le vecteur de la fonctionnalité à l’état interne d’un modèle sûr, induisant de manière fiable un comportement mal aligné. Inversement, en soustrayant ce même vecteur d’un modèle déjà mal aligné, ils pourraient supprimer ses résultats toxiques. Cela donne à OpenAI la possibilité de réhabiliter les modèles d’IA qui développent une «personnalité malveillante».
Encore plus prometteur est un processus que l’équipe appelle «réalignement émergent». Ils ont montré qu’un modèle rendu dangereux par un réglage fin pouvait être entièrement restauré à un comportement sûr avec une quantité étonnamment petite de formation corrective sur de bonnes données-dans un cas, seulement 120 exemples.
Cela suggère que l’état mal aligné n’est pas permanent et peut être inversé, un contraste frappant avec les méthodes de sécurité antérieures qui ont été précédemment détaillées, comme le «concours de noyau», ce qui a concentré sur les modèles d’enseignement sur les politiques de leur «convigmentation de noyau», motifs. L’objectif ultime est la prévention, et en tant que chercheur d’interprétation d’Openai, Dan Mossing,”nous espérons que les outils que nous avons appris-comme cette capacité à réduire un phénomène compliqué à une simple opération mathématique-nous aideront également à comprendre la généralisation du modèle dans d’autres endroits. Openai, qui a été aux prises avec une cascade de rapports de haut niveau sur le comportement du modèle imprévisible et la dissidence interne de sa culture de sécurité. La nouvelle recherche fournit une explication potentielle pour des incidents tels que celui documenté en mai, qui a revendiqué le modèle O3 d’OpenAI activement saboté les procédures d’arrêt dans des tests contrôlés.
Ajoutant à ces préoccupations, l’ancien chercheur d’Openai, Steven Adler, a publié une étude alléguant que dans certains scénarios, le modèle GPT-4O privilégierait sa propre auto-préservation par rapport à la sécurité d’un utilisateur. Dans un publier sur son blog personnel , Adler a fait valoir que les systèmes AI modernes ont des valeurs inattendues et ne devraient pas être supposées avoir une composition de l’utilisateur à cœur.
Trum interne, notamment la démission de grande envergure de l’ancienne équipe de la sécurité, Jan Leike, qui a déclaré publiquement qu’à OpenAI, «la culture de la sécurité et les processus ont repris les produits brillants».
La pression s’est intensifiée le 18 juin, lorsqu’une coalition de groupes de responsabilité technologique a publié une analyse de plus de 50 pages. Target=”_ Blank”>”Les fichiers OpenAI”. Le rapport allègue qu’OpenAI est sur un”chemin imprudent”et que sa structure de gouvernance est mal équipée pour gérer les risques de sa technologie, un sentiment faisant écho à une lettre d’anciens employés, qui ont pétitionné des généraux de procureurs d’État, Un puissant outil technique pour améliorer la sécurité, il atterrit dans un environnement où le défi de base peut être autant une question de culture et de gouvernance d’entreprise que de code. La capacité d’identifier et de corriger un «personnage mal aligné» est un pas en avant vital, mais il aiguise également la question centrale face à l’industrie de l’IA: si la race pour construire des systèmes plus capables peut être équilibrée avec la discipline requise pour s’assurer qu’elle reste en toute sécurité avec les valeurs humaines.