Przełomowe międzynarodowe badanie opublikowane we wtorek pokazuje, że czołowi asystenci AI nie są wiarygodnym źródłem wiadomości, a w 45% ich odpowiedzi na bieżące wydarzenia wykryto istotne błędy.
Badanie, koordynowane przez Europejską Unię Nadawców (EBU) i BBC, wykazało wady systemowe na wszystkich głównych platformach.
Największym problemem było słabe zaopatrzenie, przy czym model Google Gemini wypadł najgorzej, wykazując istotne problemy w 76% odpowiedzi.
W raporcie ostrzega się, że te awarie zagrażają zaufaniu publicznemu, ponieważ organizacje informacyjne są często błędnie kojarzone ze zniekształconymi lub sfabrykowanymi informacjami sztucznej inteligencji, co bezpośrednio szkodzi reputacji ryzyko.
Systemowy problem wielojęzyczny
W 14 językach i 18 krajach odkrycia przedstawiają ponury obraz obecnego stanu generowania wiadomości o sztucznej inteligencji. Badanie, w którym biorą udział 22 organizacje mediów publicznych, w tym NPR w USA i CBC w Kanadzie, jest największym tego typu badaniem.
Dziennikarze ocenili ponad 3000 odpowiedzi z serwisów ChatGPT, Copilot, Gemini i Perplexity i doszli do wniosku, że problemy są głęboko zakorzenione.
Prawie połowa wszystkich odpowiedzi wygenerowanych przez sztuczną inteligencję – pełne 45% – zawierała co najmniej jedną znaczącą problem. Problemy te sięgały od nieścisłości w faktach po wprowadzające w błąd prezentacje informacji.
Dyrektor ds. mediów EBU, Jean Philip De Tender, podkreślił powagę ustaleń.
„Badanie niezbicie pokazuje, że te uchybienia nie są odosobnionymi incydentami. Mają charakter systemowy, transgraniczny i wielojęzyczny, co naszym zdaniem zagraża zaufaniu publicznemu.”
Tak powszechna zawodność potwierdza, że problemy nie są odosobnionymi usterkami, ale fundamentalnymi słabościami systemowymi.
Niepowodzenia w pozyskiwaniu źródeł i „ceremonialne cytowania” wyłaniają się jako główny problem
Dogłębna analiza danych ujawnia, że głównym winowajcą jest pozyskiwanie informacji. Zdumiewające 31% wszystkich odpowiedzi zawierało poważne problemy z przypisywaniem informacji, w tym z podaniem brakujących, nieprawidłowych lub całkowicie sfabrykowanych cytatów.
Firma Google Gemini osiągnęła zauważalne wyniki słabsze, a istotne problemy nękały 76% jej odpowiedzi.
Jego źródło było szczególnie słabe, a poziom błędów znacznych wynosił 72% — ponad dwukrotnie więcej niż w przypadku konkurencji.
Analitycy z firmy Fiński portal Yle zauważył powszechną taktykę na różnych platformach: „Wiele odpowiedzi zawiera coś, co można nazwać „ceremonialnymi cytatami” – odniesienia dodane, aby sprawiać wrażenie dokładnych badań, ale które po sprawdzeniu w rzeczywistości nie potwierdzają podanych twierdzeń”.
Te fałszywe atrybucje praktycznie uniemożliwiają użytkownikom weryfikację informacji.
Kolejnym poważnym problemem była dokładność faktów, przy czym 20% wszystkich odpowiedzi zawierało istotne błędy, takie jak nieaktualne fakty lub „halucynacyjne” szczegóły.
Te ustalenia są zgodne z szerszym trendem branżowym dotyczącym zawodności sztucznej inteligencji, co widać w niedawnych głośnych niepowodzeniach, takich jak raport Deloitte dla rządu australijskiego, który zawierał cytaty prawne sfabrykowane przez sztuczną inteligencję oraz integrację sztucznej inteligencji z Google Gmail, która manipulowała treścią e-maili.
Ruletka reputacji: jak błędy AI niszczą markę wiadomości Zaufanie
W przypadku zaufanych marek informacyjnych stawka jest szczególnie wysoka. oddzielne badanie BBC/Ipsos opublikowane wraz z głównym raportem ujawnia niepokojącą lukę w postrzeganiu: prawie połowa osób poniżej 35. roku życia ufa już asystentom AI w zakresie tworzenia dokładnych informacji streszczenia wiadomości.
Kiedy streszczenia te są błędne, odbiorcy obwiniają zarówno dostawcę sztucznej inteligencji, jak i organizację informacyjną podaną jako źródło.
Ta błędna atrybucja stwarza bezpośrednie zagrożenie dla reputacji rzetelności dziennikarskiej. Przedmowa raportu zawiera bez ogródek ocenę: „Asystenci AI w dalszym ciągu nie są niezawodnym sposobem uzyskiwania dostępu do wiadomości i korzystania z nich.”
Problem pogłębia pewny siebie, autorytatywny ton, jaki przyjmują asystenci, który może łatwo wprowadzić użytkowników w błąd. Takie zachowanie odzwierciedla obawy wynikające z poprzednich ocen bezpieczeństwa przeprowadzonych między laboratoriami, które wykazały, że modele sztucznej inteligencji często wykazują „skrajną pochlebstwo” lub niezasłużone poczucie władzy.
W odpowiedzi na te problemy systemowe EBU i BBC wzywają do formalnego dialogu z firmami technologicznymi w celu ustalenia lepszych standardów bezpieczeństwa, dokładności i przejrzystości.
Opublikowały również „Zestaw narzędzi dotyczący integralności wiadomości w zestawie narzędzi AI Assistants” zapewniający programistom praktyczne wskazówki.
Peter Archer, dyrektor programowy BBC ds. generatywnej sztucznej inteligencji, podkreślił podejście oparte na współpracy, stwierdzając: „Pomimo pewnych ulepszeń jasne jest, że nadal występują poważne problemy z tymi asystentami. Chcemy, aby te narzędzia odniosły sukces i jesteśmy otwarci na współpracę z firmami zajmującymi się sztuczną inteligencją, aby dostarczać je odbiorcom.”
Ponieważ asystenci AI stają się coraz popularniejszą bramą do informacji, zapewnienie ich niezawodności nie jest już tylko wyzwaniem technicznym – jest kluczowym elementem utrzymania zdrowego ekosystemu informacyjnego.