De mondiale adviesgigant Deloitte wordt intensief onder de loep genomen nadat hij heeft toegegeven dat het generatieve AI heeft gebruikt in een rapport van $440.000 voor de Australische overheid.

Het bedrijf zal $97.000 terugbetalen nadat zijn door AI aangedreven analyse verzonnen citaten en aanzienlijke feitelijke fouten opleverde, wat aanleiding gaf tot een debat over adviesintegriteit en AI-misbruik.

Het rapport was een kritische evaluatie van de naleving van de welzijnszorg door het land. systeem, in opdracht van het Department of Employment and Workplace Relations (DEWR) in december 2024. Het onderwerp lag zeer gevoelig, na het beruchte ‘Robodebt’-schandaal van het land, waarbij nauwkeurigheid van het grootste belang was.

Het debacle dient nu als een grimmige case study over de risico’s van de inzet van generatieve AI zonder streng menselijk toezicht. Het benadrukt de groeipijnen die gepaard gaan met het integreren van grote taalmodellen in professioneel werk en roept urgente vragen op over de verantwoordelijkheid wanneer AI-hulpmiddelen worden gebruikt om overheidsbeleid vorm te geven.

“Hallucinaties” in de voetnoten

De tekortkomingen van het rapport werden voor het eerst in augustus aan het licht gebracht door Dr. Christopher Rudge, een academicus van de Universiteit van Sydney, wiens forensische, regel-voor-regel analyse aan het licht bracht wat hij noemde een aanzienlijke schending van integriteit en vertrouwen.

Als expert op het gebied van regelgeving heeft Dr. Rudge bevond zich in een unieke positie om de afwijkingen op te sporen. Alleen al in de voetnoten ontdekte hij meer dan twintig fouten, een patroon dat onmiddellijk aanleiding gaf tot alarmsignalen.

Zijn vermoedens werden bevestigd toen hij citaten tegenkwam die aan zijn eigen collega’s werden toegeschreven. Dr. Rudge legde uit dat toen hij zag dat boeken werden toegeschreven aan zijn collega’s waar hij nog nooit van had gehoord, hij al snel tot de conclusie kwam dat ze verzonnen waren.

Dit waren geen kleine typefouten, maar hele, niet-bestaande werken-een klassiek teken van een AI-model dat zelfverzekerd informatie verzint om hiaten op te vullen, een fenomeen dat bekend staat als’hallucinatie’.

Een van de meest opvallende voorbeelden betrof rechtenprofessor Lisa Burton Crawford. Terwijl haar eigenlijke boek de titel “The Rule of Law and the Australian Constitution,” citeerde het Deloitte-rapport een fantoomwerk genaamd “The Rule of Law and Administrative Justice in the Welfare State, a study of Centerlink.”

Toen hem werd gevraagd of het boek bestond, was professor Crawford ondubbelzinnig en zei: “Ik heb nog nooit een boek met die titel geschreven.”

De verzinsels van de AI werd diep doorgetrokken in juridische citaten, waardoor er ernstige feitelijke onnauwkeurigheden ontstonden. Het rapport verwees ten onrechte naar een belangrijke federale rechtszaak, “Deanna Amato v Commonwealth”, en citeerde de rechter verkeerd met een fictieve paragraaf van vier tot vijf regels.

Volgens Dr. Rudge bestaan ​​dergelijke paragrafen niet in de feitelijke uitspraak. In de heruitgegeven versie gaf Deloitte toe dat het rapport “fouten bevatte” met betrekking tot de Amato-procedure.

Om de geloofwaardigheid van het rapport verder te ondermijnen, verzon de AI een toespraak en schreef deze toe aan “rechter Natalie Kuis Perry.”

In werkelijkheid is de voornaam van de rechter Melissa, en de toespraak in kwestie bestaat niet. Dit patroon van het genereren van plausibele maar geheel valse informatie demonstreert een kritieke tekortkoming in de processen voor kwaliteitsborging en menselijk toezicht van Deloitte.

Een gedeeltelijke terugbetaling en een oproep tot transparantie

Na de publieke verontwaardiging bracht Deloitte het rapport op 3 oktober opnieuw uit. Er werd een bijlage toegevoegd, waarin het gebruik van een Azure OpenAI GPT-4o-model werd onthuld. Het bedrijf hield vol dat de kernbevindingen en aanbevelingen van het rapport deugdelijk bleven, hoewel het ermee instemde de laatste termijn van $97.000 van zijn contract terug te betalen.

De reactie van de regering was scherp. Tijdens een hoorzitting in de Senaat noemden DEWR-functionarissen het werk ‘onaanvaardbaar’. Eén woordvoerder benadrukte de tekortkomingen in de kwaliteitsborging en verklaarde:’Mijn mensen mogen de gegevens van een externe leverancier niet dubbel controleren voetnoten.”

Labour-senator Deborah O’Neill gaf een bijzonder scherpe berisping, met:”Deloitte heeft een menselijk intelligentieprobleem. Dit zou lachwekkend zijn als het niet zo betreurenswaardig was.”

Ze suggereerde dat als dit de kwaliteit van het geleverde werk was, overheidsdiensten beter af zouden zijn met een direct AI-abonnement, waarbij ze opmerkte:”In plaats van een groot adviesbureau zouden inkopers misschien beter af zijn als ze zich zouden aanmelden voor een ChatGPT-abonnement.”

De gevaren van “AI-slop” in het overheidsbeleid

Deze aflevering belicht het opkomende probleem van “AI-slop”: lage kwaliteit, foutieve of onzinnige inhoud gegenereerd door AI en gepresenteerd als feitelijk werk. Wanneer dergelijke inhoud documenten infiltreert die bedoeld zijn om het overheidsbeleid te sturen, worden de risico’s vergroot.

Dr. Rudge waarschuwde dat de correcties zelf onthullend waren. Hij merkte op dat afzonderlijke valse verwijzingen vaak werden vervangen door meerdere nieuwe, wat de oorspronkelijke claim suggereerde die in de hoofdtekst van het rapport zijn gemaakt, waren niet gebaseerd op een bepaalde bewijsbron.”

Het schandaal benadrukt ook een groeiende uitdaging: het detecteren van door AI gegenereerde tekst. Hoewel er tools bestaan ​​om AI-schrijven te identificeren, staat de effectiviteit ervan ter discussie.

Dit creëert een scenario waarin gebrekkige rapporten als feit kunnen worden geaccepteerd, wat leidt tot slechte besluitvorming op het hoogste niveau.

Categories: IT Info