Il gigante della consulenza globale Deloitte si trova ad affrontare un attento esame dopo aver ammesso di aver utilizzato l’intelligenza artificiale generativa in un rapporto da 440.000 dollari per il governo australiano.
L’azienda rimborserà $ 97.000 dopo che la sua analisi basata sull’intelligenza artificiale ha prodotto citazioni inventate e significativi errori fattuali, innescando un dibattito sull’integrità della consulenza e sull’uso improprio dell’intelligenza artificiale.
Il rapporto era una revisione critica del benessere della nazione sistema di compliance, commissionato nel dicembre 2024 dal Dipartimento per l’Impiego e le Relazioni sul Lavoro (DEWR). L’argomento era molto delicato, in seguito al famigerato scandalo”Robodebt”del paese, che ha reso la precisione fondamentale.
La debacle ora funge da duro caso di studio su i rischi derivanti dall’implementazione dell’intelligenza artificiale generativa senza una rigorosa supervisione umana. Evidenzia le crescenti difficoltà legate all’integrazione di grandi modelli linguistici nel lavoro professionale e solleva domande urgenti sulla responsabilità quando gli strumenti di intelligenza artificiale vengono utilizzati per modellare le politiche pubbliche.
“Allucinazioni”nelle note
I difetti del rapporto sono stati esposti per la prima volta in agosto dal dottor Christopher Rudge, un accademico dell’Università di Sydney, la cui revisione forense, riga per riga, ha scoperto ciò che lui definito una significativa violazione dell’integrità e della fiducia.
In qualità di esperto nel campo della regolamentazione, il Dr. Rudge era in una posizione unica per individuare le anomalie. Trovò più di 20 errori solo nelle note a piè di pagina, uno schema che fece immediatamente scattare qualche campanello d’allarme.
I suoi sospetti furono confermati quando incontrò citazioni attribuite ai suoi stessi colleghi. Il dottor Rudge spiegò che quando vide che ai suoi colleghi venivano attribuiti libri di cui non aveva mai sentito parlare, concluse rapidamente che erano inventati.
Non si trattava di piccoli errori di battitura ma di opere intere e inesistenti: un classico segno di un modello di intelligenza artificiale che inventa con sicurezza informazioni per colmare le lacune, un fenomeno noto come”allucinazione”.
Uno degli esempi più eclatanti riguardava la professoressa di diritto Lisa Burton Crawford. Anche se il suo vero libro si intitola “The Rule of Law and the Australian Constitution”, il rapporto Deloitte citava un lavoro fantasma intitolato”The Rule of Law and Administrative Justice in the Welfare State, a study of Centerlink.”
Quando gli è stato chiesto se il libro esistesse, il professor Crawford è stato inequivocabile, affermando:”Non ho mai scritto un libro con quel titolo.”
Le invenzioni dell’intelligenza artificiale esteso fino alle citazioni giuridiche, creando gravi inesattezze di fatto. Il rapporto faceva erroneamente riferimento a un caso chiave del tribunale federale,”Deanna Amato v Commonwealth”, e citava erroneamente il giudice con un paragrafo fittizio di quattro o cinque righe.
Secondo il dottor Rudge, tali paragrafi non esistono nella sentenza vera e propria. Nella sua versione ristampata, Deloitte ha ammesso che il rapporto”conteneva errori”riguardo al procedimento Amato.
Minando ulteriormente la credibilità del rapporto, l’IA ha inventato un discorso e lo ha attribuito al”giudice Natalie Kuis Perry”.
In realtà, il nome di battesimo del giudice è Melissa, e il discorso in questione non esiste. Questo modello di generazione di informazioni plausibili ma completamente false dimostra un fallimento critico nei processi di garanzia della qualità e di supervisione umana di Deloitte.
Un rimborso parziale e un appello alla trasparenza
In seguito alla protesta pubblica, Deloitte ha ripubblicato il rapporto il 3 ottobre. È stata aggiunta un’appendice che rivela l’uso di un modello Azure OpenAI GPT-4o. L’azienda ha insistito sul fatto che i risultati principali e le raccomandazioni del rapporto rimanessero valide, anche se ha accettato di rimborsare la rata finale di 97.000 dollari del suo contratto.
La risposta del governo è stata dura. Durante un’audizione al Senato, i funzionari del DEWR hanno definito il lavoro”inaccettabile”. Un portavoce ha sottolineato il fallimento del controllo qualità, affermando,”i miei dipendenti non dovrebbero ricontrollare una terza parte note a piè di pagina del fornitore.”
La senatrice laburista Deborah O’Neill ha espresso un rimprovero particolarmente pungente, affermando:”Deloitte ha un problema di intelligenza umana. Sarebbe ridicolo se non fosse così deplorevole.”
Ha suggerito che se questa fosse la qualità del lavoro prodotto, i dipartimenti governativi potrebbero stare meglio con un abbonamento diretto all’intelligenza artificiale, osservando,”forse invece di una grande società di consulenza, i committenti farebbero meglio a sottoscrivere un abbonamento ChatGPT.”
I pericoli dello”slop dell’intelligenza artificiale”nelle politiche pubbliche
Questo episodio evidenzia il problema emergente dello”slop dell’intelligenza artificiale”: contenuti di bassa qualità, errati o privi di senso generati dall’intelligenza artificiale e presentato come lavoro fattuale. Quando tali contenuti si infiltrano in documenti destinati a guidare la politica del governo, i rischi sono amplificati.
Dr. Rudge ha avvertito che le correzioni stesse erano rivelatrici. Ha notato che singoli riferimenti falsi venivano spesso sostituiti da molteplici nuovi riferimenti, suggerendo“l’affermazione originale fatta nel il corpo del rapporto non si basava su alcuna particolare fonte probatoria.”
Lo scandalo evidenzia anche una sfida crescente: individuare il testo generato dall’intelligenza artificiale. Sebbene esistano strumenti per identificare la scrittura dell’intelligenza artificiale, la loro efficacia è molto dibattuta.
Ciò crea uno scenario in cui i report errati potrebbero essere accettati come fatti, portando a un processo decisionale inadeguato ai livelli più alti.