La nouvelle assistante de l’IA de la Food and Drug Administration des États-Unis, «Elsa», lancée en juin pour révolutionner les approbations de médicaments, fabrique plutôt des études inexistantes et crée plus de travail pour ses critiques humains. Selon un rapport de CNN du 23 juillet, l’outil n’est pas fiable pour les tâches critiques.

Cet échec au siège du Maryland de la FDA contraste fortement avec les éloges publics de l’administration Trump pour l’IA. Il met en évidence les risques graves de déploiement de la technologie non prouvée dans des rôles gouvernementaux à enjeux élevés, un problème faisant écho à l’industrie de la technologie.

L’IA a été dévoilée avec fanfare. Le secrétaire du HHS, Robert F. Kennedy Jr., a déclaré: «La révolution de l’IA est arrivée». Pourtant, dans les coulisses, les employés de la FDA ont déclaré à CNN qu’Elsa dénaturait la recherche et nécessitait une vigilance constante, sapant son objectif.

Le commissaire de la FDA, le Dr Marty Makary, a minimisé les préoccupations internes, disant aux journalistes:”Je n’ai pas entendu ces préoccupations spécifiques, mais c’est facultatif. Ils n’ont pas à utiliser ELSA s’ils ne le trouvent pas pour avoir de la valeur.”Cette position, cependant, contourne le problème central de la fiabilité d’un outil introduit pour augmenter l’efficacité et accélérer les critiques critiques.

Selon cnn » est beaucoup plus alarmant. Un employé a décrit l’outil comme peu fiable pour toute tâche qui ne peut pas être revérifiée, le déclarant «hallucine en toute confiance». Un autre a déploré le nouveau fardeau, en disant:”Je perds beaucoup de temps supplémentaire juste en raison de la vigilance accrue que je dois avoir.”

Ce travail supplémentaire découle des limites fondamentales d’Elsa. Les membres du personnel ont noté qu’il ne pouvait pas accéder à de nombreux documents pertinents, comme les soumissions confidentielles de l’industrie, ce qui le rend inutile pour le travail scientifique de base de l’examen des données sur la sécurité des médicaments et l’efficacité. Lorsqu’il a été testé avec des questions de base, il a retourné de mauvaises réponses.

Le chef de l’IA de l’agence, Jeremy Walsh, a reconnu la réalité technique, admettant:”Elsa n’est pas différente de beaucoup de modèles de grande langue et de l’IA génératrice. Ils pourraient potentiellement halluciner.”Ce phénomène, où une IA génère des informations confiantes mais entièrement fausses, est la faille centrale affligeant la génération actuelle de modèles.

Le problème n’est pas unique à l’outil personnalisé de la FDA. Même les modèles commerciaux les plus avancés en souffrent. OpenAI, par exemple, a révélé dans ses propres données de sécurité que ses nouveaux modèles O3 et O4-MINI fabriquent paradoxalement des informations à un rythme plus élevé sur certains repères que leurs prédécesseurs.

Les chercheurs théorisent que cela se produit parce que les modèles sont récompensés pour les réponses finales correctes, l’apprentissage pour inventer des étapes de coffrage plausible pour y arriver. Ceci est aggravé lorsqu’un modèle ne peut pas accéder à son propre raisonnement préalable, le forçant à fabriquer des excuses élaborées lorsqu’elles sont interrogées sur son processus.

Cette réalité a conduit les experts à avertir que la technologie est déployée prématurément. Le Dr Jonathan Chen, professeur à l’Université de Stanford, a décrit la situation franchement, mettant en garde:”C’est vraiment le Far West en ce moment.

Un modèle d’échecs à enjeux élevés dans l’industrie

Les problèmes de la FDA ne sont pas un incident isolé. En mai 2025, l’équipe juridique de la société d’IA Anthropic a dû s’excuser après que sa Claude AI ait inventé une citation légale pour un procès pour droit d’auteur. Le juge dans l’affaire a noté le «monde de la différence entre une citation manquée et une hallucination générée par l’IA». Un bogue dans l’IA de Gmail a mal traduit les e-mails allemands, provoquant une manipulation importante de contenu.

t-online, Florian Harrian, a déclaré:”Pour la réputation journalistique et la crédibilité des médias sérieux, ces manipulations de texte sont dévastatrices”, mettant en évidence les dommages à la crédibilité professionnelle. Comme un analyste des laboratoires de sauce notés après l’incident du curseur, «faire savoir aux utilisateurs« Cette réponse a été générée par l’IA »est probablement une mesure inadéquate pour récupérer la fidélité des utilisateurs.»

et la réalité

Cette chaîne de bévues de haut niveau oblige un recalibrage plus large de l’industrie. Une étude du centre d’appels AI a révélé qu’elle créait souvent plus de travail pour les agents humains. La société d’analyste Gartner a également inversé une prévision clé, maintenant

La concentration du plan sur le déshabillage des «formalités administratives bureaucratiques» et de l’annulation des ordres antérieurs sur la gestion des risques d’IA pourrait accélérer le déploiement d’outils comme ELSA, malgré des preuves claires de leurs défauts. Le Dr Jonathan Chen, un professeur de l’Université de Stanford qui étudie l’IA en milieu clinique, a averti:”C’est vraiment le Far West en ce moment. a publié une déclaration reconnaissant les défis de l’utilisation de l’IA générative. Cependant, l’incident ELSA sert d’avertissement public puissant sur les dangers du déploiement prématuré de l’IA au gouvernement.