Der globale Beratungsriese Deloitte steht vor einer intensiven Prüfung, nachdem er in einem 440.000 US-Dollar teuren Bericht für die australische Regierung zugegeben hat, generative KI eingesetzt zu haben.

Das Unternehmen wird 97.000 US-Dollar zurückzahlen, nachdem seine KI-gestützte Analyse erfundene Zitate und erhebliche sachliche Fehler hervorgebracht hatte, was eine Debatte über Beratungsintegrität und KI-Missbrauch entfachte.

Der Bericht war eine kritische Überprüfung des Wohlergehens des Landes Compliance-System, das im Dezember 2024 vom Department of Employment and Workplace Relations (DEWR) in Auftrag gegeben wurde. Das Thema war nach dem berüchtigten „Robodebt“-Skandal des Landes, bei dem Genauigkeit an erster Stelle stand, äußerst heikel.

Das Debakel dient nun als klare Fallstudie dazu Risiken des Einsatzes generativer KI ohne strenge menschliche Aufsicht. Es verdeutlicht die wachsenden Schwierigkeiten bei der Integration großer Sprachmodelle in die berufliche Arbeit und wirft dringende Fragen zur Rechenschaftspflicht auf, wenn KI-Tools zur Gestaltung der öffentlichen Ordnung eingesetzt werden.

„Halluzinationen“ in den Fußnoten

Die Mängel des Berichts wurden erstmals im August von Dr. Christopher Rudge, einem Akademiker der University of Sydney, aufgedeckt, dessen forensische, Zeile für Zeile durchgeführte Überprüfung ans Licht brachte, was er sagte wird als erheblicher Verstoß gegen Integrität und Vertrauen bezeichnet.

Als Experte auf dem Gebiet der Regulierung Dr. Rudge war in der einzigartigen Position, die Anomalien zu erkennen. Er fand allein in den Fußnoten mehr als 20 Fehler, ein Muster, das sofort Alarm auslöste.

Sein Verdacht wurde bestätigt, als er auf Zitate stieß, die seinen eigenen Kollegen zugeschrieben wurden. Dr. Rudge erklärte, als er sah, dass Bücher seinen Kollegen zugeschrieben wurden, von denen er noch nie gehört hatte, kam er schnell zu dem Schluss, dass sie erfunden waren.

Es handelte sich nicht um geringfügige Tippfehler, sondern um ganze, nicht existierende Werke – ein klassisches Zeichen dafür, dass ein KI-Modell selbstbewusst Informationen erfand, um Lücken zu schließen, ein Phänomen, das als „Halluzination“ bekannt ist.

Eines der eklatantesten Beispiele betraf die Rechtsprofessorin Lisa Burton Crawford. Während ihr eigentliches Buch den Titel „The Rule of Law and the Australian Constitution“ Der Deloitte-Bericht zitierte ein Phantomwerk mit dem Titel „The Rule of Law and Administrative Justice in the Welfare State, a Study of Centerlink“.

Auf die Frage, ob das Buch existierte, antwortete Professor Crawford eindeutig: „Ich habe noch nie ein Buch mit diesem Titel geschrieben.“

Die Erfindungen der KI gingen weiter dringt tief in juristische Zitate ein und führt zu schwerwiegenden sachlichen Ungenauigkeiten. Der Bericht bezog sich fälschlicherweise auf einen wichtigen Fall eines Bundesgerichts, „Deanna Amato gegen Commonwealth“, und zitierte den Richter falsch mit einem fiktiven Absatz von vier bis fünf Zeilen.

Laut Dr. Rudge gibt es im eigentlichen Urteil keine derartigen Absätze. In seiner neu veröffentlichten Version räumte Deloitte ein, dass der Bericht „Fehler“ in Bezug auf das Amato-Verfahren enthielt.

Um die Glaubwürdigkeit des Berichts noch weiter zu untergraben, erfand die KI eine Rede und schrieb sie „Richterin Natalie Kuis Perry“ zu.

In Wirklichkeit lautet der Vorname der Richterin Melissa, und die fragliche Rede existiert nicht. Dieses Muster der Generierung plausibler, aber völlig falscher Informationen zeigt einen kritischen Fehler in den Qualitätssicherungs-und menschlichen Aufsichtsprozessen von Deloitte.

Eine teilweise Rückerstattung und ein Aufruf zur Transparenz

Nach dem öffentlichen Aufschrei veröffentlichte Deloitte den Bericht am 3. Oktober erneut. Es wurde ein Anhang hinzugefügt, der die Verwendung eines Azure OpenAI GPT-4o-Modells offenlegt. Das Unternehmen bestand darauf, dass die Kernergebnisse und Empfehlungen des Berichts weiterhin solide seien, erklärte sich jedoch bereit, die letzte Rate seines Vertrags in Höhe von 97.000 US-Dollar zurückzuerstatten.

Die Reaktion der Regierung war scharf. Während einer Anhörung im Senat bezeichneten DEWR-Beamte die Arbeit als „inakzeptabel“. Ein Sprecher wies auf den Zusammenbruch der Qualitätssicherung hin und erklärte: „Meine Leute sollten Dritte nicht noch einmal überprüfen.“ Fußnoten des Anbieters.“

Labour-Senatorin Deborah O’Neill sprach einen besonders scharfen Tadel aus: Erklärte: „Deloitte hat ein Problem mit der menschlichen Intelligenz. Das wäre lächerlich, wenn es nicht so beklagenswert wäre.“

Sie schlug vor, dass Regierungsabteilungen bei dieser Qualität der geleisteten Arbeit mit einem direkten KI-Abonnement besser dran wären, und bemerkte: „Vielleicht wäre es für Beschaffer besser, sich anstelle eines großen Beratungsunternehmens für ein ChatGPT-Abonnement anzumelden.“

Die Gefahren von „KI-Slop“ in der öffentlichen Ordnung

Diese Folge beleuchtet das aufkommende Problem von „KI-Slop“ – minderwertige, fehlerhafte oder unsinnige Inhalte, die von KI generiert werden und als Sacharbeit präsentiert. Wenn solche Inhalte in Dokumente eindringen, die als Leitfaden für die Regierungspolitik dienen sollen, erhöhen sich die Risiken.

Dr. Rudge warnte, dass die Korrekturen selbst aufschlussreich seien. Er stellte fest, dass einzelne gefälschte Referenzen häufig durch mehrere neue ersetzt wurden, was auf die ursprüngliche Behauptung hindeutet, die in gemacht wurde Der Hauptteil des Berichts basierte nicht auf einer bestimmten Beweisquelle.“

Der Skandal verdeutlicht auch eine wachsende Herausforderung: die Erkennung von KI-generiertem Text. Zwar gibt es Tools zur Identifizierung von KI-Schreiben, ihre Wirksamkeit wird jedoch heftig diskutiert.

Dies schafft ein Szenario, in dem fehlerhafte Berichte als Tatsachen akzeptiert werden könnten, was zu einer schlechten Entscheidungsfindung auf höchster Ebene führt.

Categories: IT Info