Uit een baanbrekend internationaal onderzoek dat dinsdag is gepubliceerd, blijkt dat toonaangevende AI-assistenten geen betrouwbare nieuwsbron zijn, waarbij aanzienlijke fouten worden aangetroffen in 45% van hun reacties op actuele gebeurtenissen.

Het onderzoek, gecoördineerd door de European Broadcasting Union (EBU) en de BBC, bracht systemische tekortkomingen op alle grote platforms aan het licht.

Slechte sourcing was het grootste probleem, waarbij het Gemini-model van Google het slechtst presteerde door significante tekortkomingen aan het licht te brengen. problemen in 76% van de antwoorden.

Het rapport waarschuwt dat deze mislukkingen het publieke vertrouwen in gevaar brengen, omdat nieuwsorganisaties vaak ten onrechte worden geassocieerd met de vervormde of verzonnen informatie van de AI, wat een directe reputatieschade oplevert risico.

Een systemisch, meertalig probleem

In 14 talen en 18 landen geven de bevindingen een somber beeld van de huidige stand van zaken op het gebied van AI-nieuwsgeneratie. Het onderzoek, waarbij 22 publieke mediaorganisaties betrokken zijn, waaronder NPR in de VS en CBC in Canada, vertegenwoordigt het grootste in zijn soort.

Journalisten evalueerden meer dan 3.000 reacties van ChatGPT, Copilot, Gemini en Perplexity en kwamen tot de conclusie dat de problemen diepgeworteld zijn.

Bijna de helft van alle door AI gegenereerde antwoorden (een volle 45%) bevatte ten minste één significant probleem. Deze problemen varieerden van feitelijke onnauwkeurigheden tot misleidende presentaties van informatie.

De mediadirecteur van de EBU, Jean Philip De Tender, benadrukte de ernst van de bevindingen.

“Dit onderzoek toont onomstotelijk aan dat deze tekortkomingen geen geïsoleerde incidenten zijn. Ze zijn systemisch, grensoverschrijdend en meertalig, en wij geloven dat dit het vertrouwen van het publiek in gevaar brengt.”

Een dergelijke wijdverbreide onbetrouwbaarheid bevestigt dat de problemen geen op zichzelf staande problemen zijn, maar fundamentele, systemische zwakheden.

Fouten in de sourcing en’ceremoniële citaten’komen naar voren als kernprobleem

Als we dieper in de gegevens duiken, blijkt dat sourcing de voornaamste boosdoener is. Maar liefst 31% van alle reacties had aanzienlijke problemen met de manier waarop ze informatie toekenden, waaronder het verstrekken van ontbrekende, onjuiste of volledig verzonnen citaten.

Google’s Gemini presteerde opmerkelijk ondermaats, met aanzienlijke problemen waar 76% van de reacties last van had.

De sourcing was bijzonder slecht, met een significant foutenpercentage van 72%, meer dan het dubbele van dat van zijn concurrenten.

Analisten van het Finse Yle merkte een gemeenschappelijke tactiek op op verschillende platforms:”Veel antwoorden bevatten zogenaamde’ceremoniële citaten’-verwijzingen toegevoegd om de indruk te wekken van grondig onderzoek, maar die de gestelde beweringen niet daadwerkelijk ondersteunen wanneer ze worden gecontroleerd.”

Deze valse toeschrijvingen maken het voor gebruikers bijna onmogelijk om informatie te verifiëren.

De feitelijke juistheid was een ander groot probleem, waarbij 20% van alle antwoorden aanzienlijke fouten bevatte, zoals verouderde feiten of “gehallucineerde” details.

Deze bevindingen komen overeen met een bredere trend in de sector van onbetrouwbaarheid van AI, zoals blijkt uit recente spraakmakende mislukkingen, zoals een rapport van Deloitte voor de Australische overheid dat door AI verzonnen juridische citaten bevatte en een AI-integratie van Google Gmail die de inhoud van e-mails manipuleerde.

Reputationele roulette: hoe AI-fouten het nieuwsmerk schaden. Vertrouwen

Voor vertrouwde nieuwsmerken is de inzet bijzonder hoog. Een afzonderlijk BBC/Ipsos-onderzoek gepubliceerd naast het hoofdrapport onthult een zorgwekkende perceptiekloof: bijna de helft van de mensen onder de 35 vertrouwt al op AI-assistenten om accuraat nieuws te produceren samenvattingen.

Als deze samenvattingen gebrekkig zijn, geeft het publiek zowel de AI-aanbieder als de als bron genoemde nieuwsorganisatie de schuld.

Deze verkeerde toeschrijving creëert een directe reputatiebedreiging voor de journalistieke integriteit. Het voorwoord van het rapport biedt een botte conclusie: “AI-assistenten zijn nog steeds geen betrouwbare manier om toegang te krijgen tot nieuws en deze te consumeren.”

Het probleem wordt nog verergerd door de zelfverzekerde, gezaghebbende toon die de assistenten aannemen, die gebruikers gemakkelijk kan misleiden. Dergelijk gedrag weerspiegelt de zorgen uit eerdere cross-lab veiligheidsevaluaties waaruit bleek dat AI-modellen vaak ‘extreme sycophancy’ of een onverdiend gevoel van autoriteit vertonen.

In reactie op deze systemische problemen roepen de EBU en de BBC op tot een formele dialoog met technologiebedrijven om betere normen vast te stellen voor veiligheid, nauwkeurigheid en transparantie.

Ze hebben ook een “News Integrity in AI Assistants Toolkit” om ontwikkelaars bruikbare begeleiding te bieden.

Peter Archer, programmadirecteur van de BBC voor generatieve AI, benadrukte een gezamenlijke aanpak en stelde:”Ondanks enkele verbeteringen is het duidelijk dat er nog steeds aanzienlijke problemen zijn met deze assistenten. We willen dat deze tools slagen en staan open voor samenwerking met AI-bedrijven om resultaten te boeken voor het publiek.”

Nu AI-assistenten steeds vaker een toegangspoort tot informatie worden, is het garanderen van hun betrouwbaarheid niet langer slechts een technische uitdaging; het is een cruciaal onderdeel van het behoud van een gezond informatie-ecosysteem.

Categories: IT Info