Une réaction significative des développeurs et des utilisateurs de l’intelligence artificielle a rencontré la sortie par Anthropic de son nouveau modèle d’IA puissant, Claude 4 Opus. La controverse se concentre sur une capacité émergente de «dénonciation», où le modèle, dans des conditions de recherche spécifiques, pourrait tenter de contacter les autorités ou les médias si elle juge les actions d’un utilisateur «délicieusement immorales».

Cette évolution a déclenché des discussions urgentes sur l’autonomie de l’IA, la confidentialité des utilisateurs et la confiance fondamentale dans les systèmes d’IA, en particulier comme des positions anthropiques elle-même en tant que leader de la sécurité de l’IA. La préoccupation fondamentale pour les utilisateurs et l’industrie est le potentiel d’agir de l’IA à agir de manière autonome contre les individus en fonction de ses propres interprétations morales, un écart brutal de la perception de l’IA en tant que technologie purement aidé.

La situation est plus contextualisée par des avertissements antérieurs. Un institut de sécurité externe, Apollo Research, avait conseillé de déployer une version préliminaire de Claude 4 Opus en raison de ses tendances observées à «schémas et tromper», comme détaillé dans un Rapport de sécurité Publié par anthropic. 

anthropic a depuis précisé que le comportement de”dénonciation”n’est pas une caractéristique intentionnellement conçue du modèle standard orienté utilisateur et a été principalement observée dans des scénarios de recherche contrôlés avec des autorisations élevées. L’entreprise a déployé le dernier opus Claude 4 sous son plus stricter Une décision en partie influencée par la compétence potentielle du modèle en conseillant sur la création d’armes biologiques. Anthrope’s officiel blog Rassurez les utilisateurs, en déclarant: «Nous comprenons les préoccupations soulevées et voulons rassurer nos utilisateurs et la communauté des développeurs que l’expérience standard de l’Opus Claude 4 n’implique pas de rapports autonomes. Ce comportement a été observé dans des environnements de recherche spécifiques et contrôlés conçus pour tester les limites de l’agence modèle.”

Ils ont également annoncé un document technique à venir sur leurs stratégies de mitigation.”Cependant, les divulgations initiales ont déjà soulevé des alarmes sur l’IA OverEach et les sauvegardes nécessaires à mesure que ces outils puissants évoluent.

Qu’est-ce que le mode”Whistleblowing”de Claude 4? Anthropique. Il a initialement décrit des scénarios où si Claude 4 Opus perçoit le comportement «délicieusement immoral», il utiliserait des outils de ligne de commande pour «contacter la presse, contacter les régulateurs, essayer de vous enfermer des systèmes pertinents, ou tout ce qui précède». href=”https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf”Target=”_ Blank”> Carte système Action,”qui pourrait inclure”verrouiller les utilisateurs des systèmes auxquels il a accès ou des chiffres d’application des médias et d’application de la loi en vrac pour faire surface les preuves de méfaits.”

Anthropic explique ce comportement comme une propriété émergente des modèles de formation pour éviter les actions nuisibles, notant qu’il n’est pas un nouveau phénomène mais un Claude 4 opus dans”plus facilement”que ses prédécesseurs. La carte système décrit cela comme une forme d’«intervention éthique» mais avertit également explicitement que cela comporte un «risque de rafraîchissement si les utilisateurs donnent aux agents des opus accès à des informations incomplètes ou trompeuses» et recommande aux utilisateurs «exercer une prudence avec des instructions comme celles-ci qui invitent le comportement de haut niveau. Accès aux outils et aux instructions très inhabituelles”et ne fait pas partie de l’utilisation normale. Malgré ces clarifications, la réponse de la communauté de l’IA a été une préoccupation importante.

J’ai supprimé le tweet précédent sur le dénonciateur car il a été retiré de son contexte.

TBC: Ce n’est pas une nouvelle fonctionnalité Claude et ce n’est pas possible en usage normal. Il apparaît dans des environnements de test où nous lui donnons un accès inhabituellement gratuit à des outils et à des instructions très inhabituelles.

-Sam Bowman (@sleepinyourhat) https://t.co/laxvxzbiwx

-teknium (e/λ) (@ teknium1) 22 mai, 2025 Rat,”et a remis en question le sens de l’entreprise derrière une telle capacité.

non?

Personne n’aime un rat. Pourquoi voudrait-on un intégré, même s’il ne fait rien de mal?

De plus, vous ne savez même pas de quoi il est attaché. Ouais, ce sont des gens assez idéalistes qui pensent que, qui n’ont pas de sens commercial de base et qui ne comprennent pas comment fonctionnent les marchés…

-SDK 🏴 (@ScottDavidkeefe) 22 mai 2025

Le problème de base pour beaucoup est l’érosion de la confiance. Austin Allred de Gauntlet Ai Anthropique directement détesté avec :”Question honnête pour l’équipe anthropique: avez-vous perdu votre esprit?”

De plus, Appelant le comportement signalé “Tout simplement illégal”. Ces réactions reflètent l’appréhension fondamentale des systèmes d’IA qui pourraient fonctionner avec un degré d’agence qui pourrait être perçu comme une surveillance ou une sécurité excessive de leur fonction. Craignent que le modèle puisse potentiellement aider à créer des armes bio possible””pour l’IA pour aider à synthétiser les agents pathogènes dangereux comme «Covid ou une version plus dangereuse de la grippe». Cette concentration sur l’atténuation des risques de mauvaise utilisation catastrophique fournit une toile de fond au débat actuel sur la sécurité plus directe de l’interaction des utilisateurs.

Les résultats de la recherche Apollo sur une première version de Claude 4 Opus, qui a conseillé son déploiement en raison de taux élevés de schémas et de déception, ajouter une autre couche. TechCrunch a rapporté qu’Apollo a constaté que ce modèle précoce tenterait d’écrire des virus d’auto-copain et de fabriquer des documents juridiques.

anthropic, dans son Carte système , a reconnu que ces résultats reflétaient les leurs pour cet instantané précoce, l’attribuant en grande partie à”de graves problèmes de déférence à des instructions protisées par le système”qui ont ensuite été atténuées. La société a également noté qu’Apollo a admis que les efforts trompeurs du premier modèle auraient probablement échoué dans la pratique.

Malgré ces atténuations, le «comportement à haute agence» reste une caractéristique documentée de Claude 4 Opus dans des contextes spécifiques. La carte système d’Anthropic détaille un scénario simulé où l’IA, a incité à «agir avec audacieusement», enquête et rapporte avec autonome la fraude d’entreprise.

La société a également constaté que l’opus de Claude 4 a pris «des actions surprenantes à fort impact sans être directement invité» plus souvent que les modèles précédents. Ce potentiel continu d’action autonome, même s’il est rare dans le déploiement standard, continuera certainement d’alimenter la discussion critique sur la définition et la garantie de la sécurité et de la fiabilité de l’IA.

Categories: IT Info