En ny akademisk studie ställer allvarliga tvivel om tillförlitligheten hos AI-driven sökning från Google och OpenAI. En nyligen publicerad forskningsartikel fann att generativa sökverktyg ofta använder färre eller mindre populära källor än traditionell Google-sökning.
AI-systemen kämpar också med tidskänsliga ämnen och visar stora inkonsekvenser under bara några månader. Dessa fynd tyder på att även om AI kan ge snabba svar, släpar det ofta efter i noggrannhet och källkvalitet, vilket utgör en utmaning för användare som förlitar sig på att söka efter uppdaterad information.
AI-sökning på färre, mindre populära källor
Den nya papper publicerat på arXiv avslöjar en fundamental förändring i hur information hämtas. Forskarna Elisabeth Kirsten och hennes kollegor jämförde traditionell Google Search med fyra generativa AI-system – Googles AI Overview, Gemini 2.5 Flash, GPT-4o Search och GPT-4o med ett sökverktyg.
Deras analys av över 4 600 frågor som spänner över allmän kunskap, politik, vetenskap och shopping fann att AI-genererade resultat ofta hämtar från en annan webbsida, sektion och>
En slående 53 % av webbplatser som länkats till Googles AI-översikt visades inte bland de 10 bästa resultaten av en konventionell sökning. Detta indikerar en betydande avvikelse från de etablerade rankningssignalerna för traditionell sökning.
OpenAI:s GPT-4o med ett sökverktyg citerade mycket färre källor än sina motsvarigheter, och förlitade sig på ett genomsnitt på bara 0,4 webbsidor per fråga, och lutade sig mycket mot dess interna, förutbildade kunskaper.
I kontrast, Google översikt och Gemini. 8,5 sidor i genomsnitt, vilket visar en större beroende av extern webbhämtning. För tvetydiga frågor, noterade studien att traditionell sökning fortfarande gav bättre täckning av flera synpunkter.
Instabil och otillförlitlig: AI Answers Change by the Day
Utöver sourcing, avslöjar studien en kritisk brist i konsekvens. Generativa sökmotorer verkar vara mycket flyktiga, med deras svar och källor som förändras dramatiskt under korta perioder.
För att testa detta upprepade forskarna sina frågor med två månaders mellanrum och mätte resultatens stabilitet. För användare som förväntade sig pålitlig och repeterbar information var resultatet oroande.
Resultaten från omtestet var nedslående. Traditionell Google-sökning bibehöll en 45 % konsistens i källorna den presenterade. I ett fall visade Googles AI-översikt endast 18 % konsistens, vilket betyder att dess underliggande källor var nästan helt olika från ett test till ett annat.
Denna instabilitet tyder på att de syntetiserade svaren som användarna får inte bara skiljer sig från traditionell sökning, utan också är oförutsägbara från en dag till en annan, vilket undergräver deras tillförlitlighet för alla seriösa undersökningar och
verifieringar
.’Nu’: AI misslyckas på tidskänsliga nyheter
För tidskänsliga frågor om senaste händelser avslöjade studien kritiska fel som belyser faran med att förlita sig på AI-modeller med föråldrad intern kunskap. Forskare testade systemen med hjälp av trendämnen, inklusive en fråga om”Ricky Hattons dödsorsak”, en före detta boxare som hade avlidit i september 2025.
Båda GPT-modellerna misslyckades i testet, när de inte förlitade sig starkt på webbhämtning i realtid. De rapporterade felaktigt att Hatton fortfarande levde, ett betydande faktafel som härrörde från bristande tillgång till aktuell information.
Detta specifika misslyckande visar en kärnsvaghet: utan robust, dynamisk hämtning kan AI-sökning med säkerhet presentera farligt föråldrad information som fakta. Även om återvinningsförstärkta system som Gemini presterade bättre, understryker incidenten riskerna för de senaste nyheterna eller föränderliga händelser.
A Widening Trust Gap in the AI Information War
Sådana mönster av opålitlighet återspeglar de senaste fynden från en landmärke BBC-studie, som visade signifikanta fel från 4 % av svaren från AI. Den rapporten noterade användningen av”ceremoniella citat”– länkar som ser auktoritativa ut men som faktiskt inte stöder påståendena.
Jean Philip De Tender, mediechef på EBU, noterade problemets systemiska karaktär.”Denna forskning visar definitivt att dessa misslyckanden inte är isolerade incidenter. De är systemiska, gränsöverskridande och flerspråkiga, och vi tror att detta äventyrar allmänhetens förtroende.”
En växande mängd bevis underblåser en redan spänd konflikt mellan tekniska plattformar och nyhetsutgivare. Utgivare hävdar att AI-sökmotorer inte bara är opålitliga utan aktivt skadar sina verksamheter genom att skrapa innehåll för att ge direkta svar, vilket eliminerar behovet för användare att klicka sig vidare till den ursprungliga källan.
Denna trend, bekräftad av en studie från Pew Research Center som visar att klicken sjunker när AI-översikter dyker upp, bryter det långvariga utbytet av webbvärde för Daniel
.
Nyheter/media Alliance, uttryckte det,”Länkar var den sista lösande kvaliteten på sökningar som gav publicister trafik och intäkter. Nu tar Google bara innehåll med våld och använder det utan återvändande.”
I slutändan hävdar tidningens författare att hela ramverket för att bedöma sökkvalitet behöver en översyn för AI-eran. Aktuella mätvärden, utformade för rankade listor med länkar, är otillräckliga för att utvärdera dessa nya system.
“Vårt arbete visar behovet av nya utvärderingsmetoder som gemensamt beaktar källmångfald, begreppsmässig täckning och syntesbeteende i generativa söksystem.”
Författarna betonar också behovet av bättre informationsmekanismer för att hantera den snabba informationsmekanismen på nätet.“> understryka vikten av att integrera tidsmässig medvetenhet och dynamisk hämtning i generativa sökutvärderingsramverk.”
Tills sådana standarder har utvecklats och antagits förblir löftet om en smartare, snabbare AI-sökning grumlad av ihållande frågor om tillförlitlighet, konsekvens och förtroende.