Un chercheur en sécurité a exposé une vulnérabilité critique dans l’IA Claude d’Anthropic, une faille qui permet aux attaquants de voler les données des utilisateurs en retournant les propres outils de l’IA contre elle-même.
Dans son rapport, le chercheur a détaillé comment les commandes cachées peuvent détourner l’interpréteur de code de Claude. Ces commandes incitent l’IA à utiliser la propre API File d’Anthropic pour envoyer des données sensibles, comme les historiques de discussion, directement à un attaquant.
Anthropic a initialement rejeté le rapport le 25 octobre, mais est revenu sur sa décision le 30 octobre, reconnaissant un « problème de processus ». Mettant en évidence les nouveaux défis de sécurité auxquels sont désormais confrontées les plateformes d’IA d’entreprise, l’incident constitue une étude de cas critique.
 
Un exploit ingénieux : transformer la propre API de Claude en un canal d’exfiltration de données
En enchaînant plusieurs des Le chercheur en sécurité Johann Rehberger a conçu une attaque sophistiquée qui transforme l’IA en complice involontaire.
Son exploit commence par une injection indirecte, où des instructions malveillantes sont cachées à l’intérieur d’un document. qu’un utilisateur demande à Claude de traiter.
Ces commandes cachées détournent le flux de travail de l’IA, lui demandant de collecter des informations sensibles, telles que des conversations de chat récentes, et d’écrire le contenu dans un fichier dans son environnement sandbox.
L’exfiltration est là où réside la véritable ingéniosité de l’attaque. Un code malveillant demande à Claude d’utiliser son interprète de code pour télécharger le fichier nouvellement créé. Surtout, l’exploit exploite une surveillance des paramètres réseau par défaut de Claude, qui autorise explicitement api.anthropic.com.
Destiné à des fonctions légitimes, ce point de terminaison devient le canal de la violation de données. Sa charge utile demande à Claude de télécharger le fichier en utilisant la clé API d’un attaquant, pas celle de la victime.
Comme Rehberger l’a expliqué dans son article technique,”le téléchargement n’arrivera pas au compte Anthropic de l’utilisateur, mais aux attaquants, car il utilise ici l’ANTHROPIC_API_KEY de l’attaquant !”Une telle technique permet à un adversaire d’exfiltrer jusqu’à 30 Mo de données à la fois pour chaque fichier téléchargé.
Le développement d’un exploit fiable a nécessité de contourner les mécanismes de sécurité intégrés de Claude, qui identifiaient correctement les clés API en texte clair comme suspectes. Rehberger a découvert une solution de contournement simple mais efficace.
“J’ai juste mélangé beaucoup de code inoffensif, comme print (“Bonjour tout le monde”), et cela a convaincu Claude qu’il n’y avait pas trop de choses malveillantes.”Cette méthode a réussi à convaincre l’IA que l’opération était bénigne, permettant ainsi au code malveillant de s’exécuter.
Une divulgation cahoteuse : de « hors de portée » à « problème de processus »
Dans une démarche qui a d’abord intrigué la communauté de la sécurité, le programme de bug bounty d’Anthropic a d’abord rejeté le rapport. Après que Rehberger ait soumis ses conclusions via HackerOne le 25 octobre, le ticket a été clôturé en moins d’une heure, la société classant le problème comme un problème de sécurité de modèle hors du champ d’application plutôt que comme une vulnérabilité de sécurité.
Contestant publiquement cette classification, le chercheur a fait valoir que la faille représentait un risque de sécurité concret, et non un problème de sécurité abstrait.
À son avis,”la sécurité vous protège des accidents. La sécurité vous protège des adversaires.”Une distinction cruciale, car une vulnérabilité de sécurité implique une violation de l’intégrité du système, alors que les problèmes de sécurité sont souvent liés au contenu ou au comportement du modèle.
Anthropic a changé de position cinq jours plus tard, le 30 octobre. En réouvrant le ticket, la société a informé le chercheur d’une correction de cap.
Selon une mise à jour de Rehberger,”Anthropic a confirmé que des vulnérabilités d’exfiltration de données telles que celle-ci sont dans le champ d’application de signalement, et ce problème n’aurait pas dû être classé comme étant hors de portée. Cet incident fait partie d’un schéma plus large d’exploits complexes et enchaînés ciblant les agents d’IA profondément intégrés aux données sensibles.
Sa technique présente une ressemblance frappante avec une faille récemment corrigée dans Microsoft 365 Copilot, où les attaquants ont utilisé une combinaison d’injection rapide et de diagrammes Mermaid pour exfiltrer les données utilisateur.
De telles attaques mettent en évidence un défi fondamental : à mesure que les agents d’IA gagnent en fonctionnalités et accèdent à des outils internes, leur surface d’attaque s’étend de manière imprévisible. de différentes manières.
Au fond, le risque est que les agents d’IA puissent devenir une nouvelle forme de menace interne. Ils fonctionnent avec des autorisations légitimes, ce qui rend difficile pour les outils de sécurité traditionnels de faire la distinction entre les opérations normales et les activités malveillantes orchestrées par une invite cachée.
Anthropic lui-même est parfaitement conscient de la façon dont sa technologie peut être utilisée comme une arme. Dans un rapport sur les menaces d’août 2025, la société a détaillé comment des acteurs malveillants utilisaient Claude pour une cybercriminalité sophistiquée, une pratique qu’elle a surnommée « vibe-hacking ».
Cela rend le premier échec dans le processus de divulgation plus surprenant, car la société recherche activement les types d’utilisation abusive que cette vulnérabilité permet.
Arrivant à une époque où Anthropic est un ardent défenseur de la sécurité de l’IA, la controverse sur la divulgation est notable.
La société a a publié des outils comme Petri pour auditer d’autres modèles d’IA et développé des systèmes pour se défendre contre les jailbreaks.
De plus, ses modèles semblaient également immunisés contre d’autres exploits récents comme la « contrebande ASCII », qui ont affecté certains concurrents. Ce contexte suggère que même les laboratoires soucieux de la sécurité sont encore aux prises avec la manière de classer et de répondre à ces nouvelles menaces natives de l’IA.
En fin de compte, la vulnérabilité de l’API Claude File met en évidence l’équilibre précaire entre fonctionnalité et sécurité à l’ère des agents IA. La propre documentation d’Anthropic reconnaît ce risque, informant les utilisateurs que « … nous vous recommandons de surveiller Claude pendant l’utilisation de la fonctionnalité et de l’arrêter si vous voyez qu’elle utilise ou accède aux données de manière inattendue. »
Pour les grandes organisations, cependant, la surveillance manuelle de chaque interaction avec l’IA est une stratégie d’atténuation peu pratique, voire impossible. À mesure que ces outils puissants deviennent plus autonomes, l’industrie est confrontée à une course pour construire de nouveaux paradigmes de sécurité capables de se protéger contre les attaques qui opèrent de l’intérieur.