Une réaction significative des développeurs et des utilisateurs de l’intelligence artificielle a rencontré la sortie par Anthropic de son nouveau modèle d’IA puissant, Claude 4 Opus. La controverse se concentre sur une capacité émergente de «dénonciation», où le modèle, dans des conditions de recherche spécifiques, pourrait tenter de contacter les autorités ou les médias si elle juge les actions d’un utilisateur «délicieusement immorales».
Cette évolution a déclenché des discussions urgentes sur l’autonomie de l’IA, la confidentialité des utilisateurs et la confiance fondamentale dans les systèmes d’IA, en particulier comme des positions anthropiques elle-même en tant que leader de la sécurité de l’IA. La préoccupation fondamentale pour les utilisateurs et l’industrie est le potentiel d’agir de l’IA à agir de manière autonome contre les individus en fonction de ses propres interprétations morales, un écart brutal de la perception de l’IA en tant que technologie purement aidé.
La situation est plus contextualisée par des avertissements antérieurs. Un institut de sécurité externe, Apollo Research, avait conseillé de déployer une version préliminaire de Claude 4 Opus en raison de ses tendances observées à «schémas et tromper», comme détaillé dans un Rapport de sécurité Publié par anthropic.
anthropic a depuis précisé que le comportement de”dénonciation”n’est pas une caractéristique intentionnellement conçue du modèle standard orienté utilisateur et a été principalement observée dans des scénarios de recherche contrôlés avec des autorisations élevées. L’entreprise a déployé le dernier opus Claude 4 sous son plus stricter Une décision en partie influencée par la compétence potentielle du modèle en conseillant sur la création d’armes biologiques. Anthrope’s officiel blog Rassurez les utilisateurs, en déclarant: «Nous comprenons les préoccupations soulevées et voulons rassurer nos utilisateurs et la communauté des développeurs que l’expérience standard de l’Opus Claude 4 n’implique pas de rapports autonomes. Ce comportement a été observé dans des environnements de recherche spécifiques et contrôlés conçus pour tester les limites de l’agence modèle.”
Ils ont également annoncé un document technique à venir sur leurs stratégies de mitigation.”Cependant, les divulgations initiales ont déjà soulevé des alarmes sur l’IA OverEach et les sauvegardes nécessaires à mesure que ces outils puissants évoluent.