Globalny gigant konsultingowy Deloitte staje w obliczu wnikliwej analizy po tym, jak w raporcie o wartości 440 000 dolarów dla australijskiego rządu przyznał, że korzystał z generatywnej sztucznej inteligencji.
Firma spłaci 97 000 dolarów po tym, jak analiza oparta na sztucznej inteligencji doprowadziła do sfabrykowanych cytatów i znaczących błędów rzeczowych, wywołując debatę na temat uczciwości w doradztwie i niewłaściwego wykorzystywania sztucznej inteligencji.
Raport był krytycznym przeglądem dobrobytu narodu system zgodności, zamówiony w grudniu 2024 r. przez Departament Zatrudnienia i Stosunków w Miejscu Pracy (DEWR). Temat stał się bardzo drażliwy po niesławnym skandalu „Robodebt”, w którym dokładność stała się najważniejsza.
Ta porażka służy obecnie jako surowe studium przypadku ryzyko związane z wdrażaniem generatywnej sztucznej inteligencji bez rygorystycznego nadzoru człowieka. Podkreśla rosnące trudności związane z włączaniem dużych modeli językowych do pracy zawodowej i rodzi pilne pytania dotyczące odpowiedzialności za wykorzystanie narzędzi sztucznej inteligencji do kształtowania polityki publicznej.
„Halucynacje” w przypisach
Błędy raportu po raz pierwszy ujawnił w sierpniu dr Christopher Rudge, pracownik naukowy Uniwersytetu w Sydney, którego analiza kryminalistyczna linijka po linijce ujawniła to, co określił jako znaczące naruszenie integralności i zaufania.
Jako ekspert w dziedzinie regulacji dr Rudge był w wyjątkowej pozycji, aby wykryć anomalie. W samych przypisach znalazł ponad 20 błędów, co natychmiast wywołało sygnały ostrzegawcze.
Jego podejrzenia potwierdziły się, gdy natknął się na cytaty przypisywane jego własnym współpracownikom. Dr Rudge wyjaśnił, że kiedy zobaczył, że jego współpracownikom przypisywano książki, o których nigdy nie słyszał, szybko doszedł do wniosku, że zostały sfabrykowane.
Nie były to drobne literówki, ale całe, nieistniejące dzieła — klasyczny znak modelu sztucznej inteligencji pewnie wymyślającego informacje w celu wypełnienia luk, zjawisko znane jako „halucynacja”.
Jeden z najbardziej rażących przykładów dotyczy profesor prawa Lisy Burton. Crawforda. Chociaż jej właściwa książka nosi tytuł „The Rule of Law and the Australian Constitution” w raporcie Deloitte zacytowano fantomową pracę zatytułowaną „The Rule of Law and Administrative Justice in the Welfare State, studium Centerlink”.
Zapytany, czy książka istnieje, profesor Crawford jednoznacznie stwierdził: „Nigdy nie napisałem książki o tym tytule”.
Wymysły sztucznej inteligencji rozwinął się głęboko w cytaty prawne, powodując poważne nieścisłości faktyczne. W raporcie błędnie nawiązano do kluczowej sprawy sądu federalnego „Deanna Amato przeciwko Wspólnocie Narodów” i błędnie zacytowano sędziego za pomocą fikcyjnego akapitu składającego się z czterech do pięciu linijek.
Według dr Rudge’a w faktycznym orzeczeniu nie ma takich akapitów. W swojej wznowionej wersji Deloitte przyznał, że raport „zawierał błędy” dotyczące postępowania w sprawie Amato.
Co jeszcze bardziej podważa wiarygodność raportu, sztuczna inteligencja wymyśliła przemówienie i przypisała je „sędziemu Natalie Kuis Perry”.
W rzeczywistości sędzia ma na imię Melissa, a przemówienie, o którym mowa, nie istnieje. Ten wzorzec generowania wiarygodnych, ale całkowicie fałszywych informacji świadczy o krytycznym niepowodzeniu w procesach zapewniania jakości i nadzoru ludzkiego Deloitte.
Częściowy zwrot pieniędzy i wezwanie do przejrzystości
W odpowiedzi na publiczne oburzenie firma Deloitte ponownie opublikowała raport 3 października. Dodano załącznik, w którym ujawniono wykorzystanie modelu Azure OpenAI GPT-4o. Firma upierała się, że podstawowe ustalenia i zalecenia zawarte w raporcie pozostały solidne, chociaż zgodziła się zwrócić ostatnią ratę umowy w wysokości 97 000 dolarów.
Reakcja rządu była ostra. Podczas przesłuchania w Senacie urzędnicy DEWR nazwali tę pracę „niedopuszczalną”. Jeden z rzeczników podkreślił podział w zapewnianiu jakości, stwierdzając: „moi ludzie nie powinni dwukrotnie sprawdzać strony trzeciej przypisy dostawcy.”
Senatorka pracy Deborah O’Neill udzieliła szczególnie ostrej nagany, stwierdzając: „Deloitte ma problem z ludzką inteligencją. Byłoby to śmieszne, gdyby nie było tak godne pożałowania.”
Zasugerowała, że gdyby taka była jakość wykonanej pracy, departamenty rządowe mogłyby lepiej skorzystać z bezpośredniej subskrypcji AI, zauważając: „być może zamiast dużej firmy konsultingowej zamawiającym lepiej byłoby zapisać się na subskrypcję ChatGPT.”
Niebezpieczeństwa związane z „zaburzeniami sztucznej inteligencji” w polityce publicznej
W tym odcinku omówiono pojawiający się problem „zaburzeń sztucznej inteligencji” — niskiej jakości, błędnych lub bezsensownych treści generowanych przez sztuczną inteligencję i prezentowanych jako rzeczowa praca. Kiedy takie treści przedostają się do dokumentów mających wyznaczać kierunki polityki rządu, ryzyko wzrasta.
Dr. Rudge ostrzegł, że same poprawki są odkrywcze. Zauważył, że pojedyncze fałszywe odniesienia często zastępowano wieloma nowymi, sugerując „pierwotne twierdzenie treść raportu nie opierała się na żadnym konkretnym źródle dowodowym.”
Skandal uwydatnia również rosnące wyzwanie: wykrywanie tekstu generowanego przez sztuczną inteligencję. Chociaż istnieją narzędzia identyfikujące pisanie sztucznej inteligencji, ich skuteczność jest przedmiotem wielu dyskusji.
Stwarza to scenariusz, w którym błędne raporty mogą zostać zaakceptowane jako fakt, co prowadzi do nieprawidłowego podejmowania decyzji na najwyższych szczeblach.