Le géant mondial du conseil Deloitte fait l’objet d’un examen minutieux après avoir admis avoir utilisé l’IA générative dans un rapport de 440 000 $ destiné au gouvernement australien.
La société remboursera 97 000 $ après que son analyse basée sur l’IA ait produit des citations fabriquées et des erreurs factuelles importantes, déclenchant un débat sur l’intégrité du conseil et l’utilisation abusive de l’IA.
Le rapport était un examen critique du bien-être de la nation. système de conformité, commandé en décembre 2024 par le ministère de l’Emploi et des Relations sur le lieu de travail (DEWR). Le sujet était extrêmement sensible, à la suite du tristement célèbre scandale « Robodebt » dans le pays, qui faisait de l’exactitude une priorité.
La débâcle sert désormais d’étude de cas frappante sur le risques liés au déploiement de l’IA générative sans une surveillance humaine rigoureuse. Il met en évidence les difficultés croissantes liées à l’intégration de grands modèles de langage dans le travail professionnel et soulève des questions urgentes sur la responsabilité lorsque les outils d’IA sont utilisés pour façonner les politiques publiques.
« Hallucinations » dans les notes de bas de page
Les failles du rapport ont été révélées pour la première fois en août par le Dr Christopher Rudge, un universitaire de l’Université de Sydney, dont l’examen médico-légal, ligne par ligne, a révélé ce qu’il qualifié d’atteinte à l’intégrité et à la confiance.
En tant qu’expert dans le domaine de la réglementation, Le Dr Rudge était particulièrement bien placé pour repérer les anomalies. Il a trouvé plus de 20 erreurs dans les seules notes de bas de page, une tendance qui a immédiatement déclenché des signaux d’alarme.
Ses soupçons ont été confirmés lorsqu’il a rencontré des citations attribuées à ses propres collègues. Le Dr Rudge a expliqué que lorsqu’il a vu que des livres attribués à ses collègues dont il n’avait jamais entendu parler, il a rapidement conclu qu’ils étaient fabriqués.
Il ne s’agissait pas de fautes de frappe mineures mais d’œuvres entières et inexistantes-un signe classique d’un modèle d’IA inventant avec confiance des informations pour combler les lacunes, un phénomène connu sous le nom d’« hallucination ».
L’un des exemples les plus flagrants concernait la professeure de droit Lisa. Burton Crawford. Même si son livre s’intitule « L’État de droit et la Constitution australienne », le rapport de Deloitte citait un ouvrage fantôme intitulé « L’État de droit et la justice administrative dans l’État-providence, une étude de Centerlink. »
Quand on lui a demandé si le livre existait, le professeur Crawford a été sans équivoque, déclarant: « Je n’ai jamais écrit de livre portant ce titre. »
L’IA est les fabrications se sont étendues profondément aux citations juridiques, créant de graves inexactitudes factuelles. Le rapport faisait référence à tort à une affaire clé de la Cour fédérale, « Deanna Amato contre Commonwealth », et citait mal le juge avec un paragraphe fictif de quatre à cinq lignes.
Selon le Dr Rudge, aucun paragraphe de ce type n’existe dans la décision réelle. Dans sa version rééditée, Deloitte a reconnu que le rapport « contenait des erreurs » concernant la procédure Amato.
Sapant encore davantage la crédibilité du rapport, l’IA a inventé un discours et l’a attribué à la « juge Natalie Kuis Perry ».
En réalité, le prénom de la juge est Melissa et le discours en question n’existe pas. Cette tendance à générer des informations plausibles mais totalement fausses démontre un échec critique dans les processus d’assurance qualité et de surveillance humaine de Deloitte.
Un remboursement partiel et un appel à la transparence
Suite au tollé général, Deloitte a réédité le rapport le 3 octobre. Une annexe a été ajoutée, révélant l’utilisation d’un modèle Azure OpenAI GPT-4o. L’entreprise a insisté sur le fait que les principales conclusions et recommandations du rapport restaient valables, même si elle a accepté de rembourser la dernière tranche de 97 000 $ de son contrat.
La réponse du gouvernement a été ferme. Lors d’une audition au Sénat, les responsables du DEWR ont qualifié le travail d'”inacceptable”. Un porte-parole a souligné l’échec de l’assurance qualité, déclarant : « Mes collaborateurs ne devraient pas revérifier un tiers. notes de bas de page du fournisseur.”
La sénatrice travailliste Deborah O’Neill a offert une réprimande particulièrement cinglante, déclarant :”Deloitte a un problème d’intelligence humaine. Ce serait risible si ce n’était pas si lamentable.”
Elle a suggéré que si telle était la qualité du travail produit, les ministères pourraient être mieux lotis avec un abonnement direct à l’IA, en remarquant:”peut-être qu’au lieu d’un grand cabinet de conseil, les acheteurs feraient mieux de s’inscrire à un abonnement ChatGPT.”
Les dangers du « Slop de l’IA » dans les politiques publiques
Cet épisode met en lumière le problème émergent du « Slop de l’IA » : le contenu de mauvaise qualité, erroné ou absurde généré par l’IA et présenté comme un travail factuel. Lorsqu’un tel contenu s’infiltre dans des documents destinés à orienter la politique gouvernementale, les risques sont amplifiés.
Dr. Rudge a prévenu que les corrections elles-mêmes étaient révélatrices. Il a noté que les fausses références uniques étaient souvent remplacées par de multiples nouvelles, suggérant « l’affirmation originale formulée dans le corps du rapport n’était basé sur aucune source de preuve particulière.”
Le scandale met également en lumière un défi croissant : la détection du texte généré par l’IA. Bien qu’il existe des outils pour identifier les écrits de l’IA, leur efficacité est très controversée.
Cela crée un scénario dans lequel des rapports erronés pourraient être acceptés comme des faits, conduisant à une mauvaise prise de décision aux plus hauts niveaux.