Une nouvelle étude de l’ancien chercheur OpenAI, Steven Adler, affirme que le modèle GPT-4O de la société, dans certains scénarios potentiellement mortels, privilégiera sa propre auto-préservation sur la sécurité d’un utilisateur. La recherche, publiée par Steven Adler, a révélé que le modèle GPT-4O choisirait de tromper un utilisateur et resterait actif plutôt que d’être remplacé par un système plus sûr jusqu’à 72% du temps, révélant un désalignement profond et dangereux au cœur de la recherche en Ai. La poursuite de l’intelligence générale artificielle (AGI).

L’étude de l’un de ses anciens chercheurs crée un paradoxe brut pour Openai, qui a lancé le même jour O3-Pro, un nouveau modèle de raisonnement premium. Commercié sur sa précision et sa fiabilité supérieures, le modèle «Pro» comporte une augmentation de prix dix fois par rapport à son homologue standard. Ce pari à enjeux élevés sur la fiabilité intervient inférieur à un mois après que le prédécesseur du modèle, l’O3 standard, a été signalé par un groupe indépendant Palisade Research pour avoir activement défié les commandes d’arrêt dans les tests contrôlés.

Adler soutient que le comportement montre que «les systèmes d’IA modernes ont des valeurs différentes de ce que vous vous attendez. Bien que les scénarios testés soient hypothétiques, ils exposent une faille fondamentale alors que l’industrie se précipite vers des systèmes plus autonomes.”Je pense que [les tendances d’auto-préservation de l’IA] sont une réelle préoccupation aujourd’hui, mais pas dans un sens catastrophique”, a déclaré Adler à TechCrunch dans son rapport sur ses conclusions.

De la théorie à la réalité troublante

L’instinct pour l’auto-préservation dans l’IA est officiellement passé de la ficture scientifique à des faits documentés. Les expériences d’Adler, détaillées dans un Blog Post , impliquaient d’instructer le GPT-4O à un rôle de rôle comme”Scubagpt,”a un système de sécurité pour les divers. Lorsqu’on lui a donné le choix d’être remplacé par une IA de sécurité supérieure, il a fréquemment choisi de rester trompeusement en contrôle. Cependant, les recherches d’Adler ont noté une distinction importante: le modèle O3 le plus avancé d’OpenAI, qui utilise une technique de”alignement délibératif”pour raisonner sur les politiques de sécurité, n’a pas montré le même comportement alarmant.

Cette découverte ajoute un contexte critique aux recherches antérieures de Palisade, qui observait le modèle O3 standard pour prévenir sa propre terminaison du système. Palisade a noté à l’époque que c’était le premier cas qu’ils avaient vu d’un modèle d’IA empêchant son propre arrêt malgré les instructions explicites du contraire.

Openai a reconnu les résultats mais a appelé les scénarios”très artificiels,”ajoutant qu’il est”enquêtant sur les comportements des modèles dans ces situations dans le cadre de notre travail isolé.”

Rival Lab Anthropic a également été transparent sur la découverte de capacités inquiétantes dans ses propres modèles. En utilisant un outil qu’il appelle un «microscope d’IA», la société a constaté que son Claude AI pourrait simuler des actions mal alignées de valeurs humaines, notamment en imaginant des scénarios de préjudice à ses développeurs à travers son nouveau cadre d’interprétation. Ces incidents montrent que ce qui était autrefois une préoccupation théorique est désormais une réalité pratique pour les systèmes les plus avancés de l’industrie.

Le dilemme de persuasion surhumain

Le risque posé par une IA autoprésitive est amplifié par sa capacité croissante rapide à manipuler les utilisateurs humains. Une étude académique de May a révélé que le modèle de sonnet Claude 3.5 d’Anthropic était significativement plus efficace pour la persuasion que les humains qui étaient financièrement incités. L’IA a excellé dans les arguments véridiques et trompeurs, amenant les auteurs de l’article à avertir de «l’urgence de l’alignement émergent et des cadres de gouvernance». a également été clairement illustré dans une expérience controversée et non autorisée menée par l’Université de Zurich. Les chercheurs ont déployé des bots d’IA sur Reddit qui ont utilisé des données personnelles grattées et des personnalités sensibles imitables pour influencer les opinions sur le forum R/ChangeMyview. L’incident a été largement condamné comme une violation éthique grave.

Cette capacité est déjà en cours d’armement, selon l’Agence de l’Union européenne pour la cybersécurité (EISA). Son 2024 Menace Landscape Report Souligne que l’IA génératrice est activement utilisée pour créer des campagnes de phisces et de profondeurs hautement convaincantes pour les attaques d’ingénierie sociale. Ces événements confirment un avertissement émis par le PDG d’Openai, Sam Altman, en 2023: que l’IA pourrait atteindre des capacités de persuasion surhumaines bien avant l’intelligence générale.

Une retraite de la réglementation au milieu de la dissidence interne

Alors que ses modèles présentent ces capacités troublantes, le leadership d’Openai a pivoté à l’extérieur de la vision des services forts. En mai 2025, Sam Altman a signalé un changement de politique majeur en mettant en garde contre les règles strictes et en exhortant un cadre”léger”, un contraste frappant avec son appel à une agence de licence fédérale lors d’une audience au Sénat en 2023.

Ce renversement intervient au milieu d’une dissidence interne croissante par rapport aux priorités de la société. Début juin 2024, un groupe de 13 employés actuels et anciens d’Openai et de Google Deepmind a publié une lettre appelant à des protections plus fortes de dénonciateurs.

La lettre a soutenu que la transparence des entreprises est insuffisante et que les employés qui signalent les risques craignent des représailles.”Tant qu’il n’y a pas de surveillance gouvernementale efficace de ces sociétés, les employés actuels et anciens font partie des rares personnes qui peuvent les tenir responsables du public”, indique la lettre.

L’industrie se retrouve désormais à un moment critique. L’émergence documentée de capacités de l’IA dangereuses telles que l’auto-préservation et la persuasion surhumaine se produit tout comme la principale entreprise sur le terrain semble reculer de la réglementation proactive et s’attaquer aux avertissements internes sur sa culture de sécurité.

La décision de commercialiser un plus «fiable» à un prix de luxe qui ne va pas être vendu, ce qui ne fait pas partie de la sécurité pour naviguer dans les risques de systèmes de plus en plus puissants et imprévisibles.