Un nuevo estudio académico arroja serias dudas sobre la confiabilidad de las búsquedas basadas en inteligencia artificial de Google y OpenAI. Un artículo de investigación publicado recientemente encontró que las herramientas de búsqueda generativa a menudo utilizan menos o menos fuentes populares que la Búsqueda tradicional de Google.

Los sistemas de inteligencia artificial también luchan con temas urgentes y muestran importantes inconsistencias en tan solo unos pocos meses. Estos hallazgos sugieren que, si bien la IA puede proporcionar respuestas rápidas, a menudo se queda atrás en cuanto a precisión y calidad de las fuentes, lo que plantea un desafío para los usuarios que dependen de la búsqueda de información actualizada.

La búsqueda con IA apuesta por menos fuentes y menos populares

Profundizando en la mecánica de la búsqueda por IA, el nuevo artículo publicado en arXiv revela un cambio fundamental en la forma en que se obtiene la información. La investigadora Elisabeth Kirsten y sus colegas compararon la Búsqueda tradicional de Google con cuatro sistemas de IA generativa: AI Overview de Google, Gemini 2.5 Flash, GPT-4o Search y GPT-4o con una herramienta de búsqueda.

Su análisis de más de 4600 consultas que abarcan conocimientos generales, política, ciencia y compras encontró que los resultados generados por IA con frecuencia provienen de una porción diferente, y a menudo menos prominente, de la web.

Un sorprendente 53 % de los sitios web vinculados mediante la descripción general de IA de Google no aparecieron entre los 10 primeros resultados de una búsqueda convencional. Esto indica una divergencia significativa con las señales de clasificación establecidas de la búsqueda tradicional.

Citando muchas menos fuentes que sus contrapartes, GPT-4o de OpenAI con una herramienta de búsqueda se basó en un promedio de solo 0,4 páginas web por consulta, apoyándose en gran medida en su conocimiento interno previamente entrenado.

En contraste, AI Overview de Google y Gemini citaron más de 8,5 páginas en promedio, lo que muestra una mayor dependencia de la recuperación web externa. Para consultas ambiguas, el estudio señaló que la búsqueda tradicional aún brindaba una mejor cobertura de múltiples puntos de vista.

Inestable y poco confiable: la IA responde al cambio cada día

Más allá del abastecimiento, el estudio expone una falla crítica en la coherencia. Los motores de búsqueda generativos parecen ser muy volátiles, y sus respuestas y fuentes cambian dramáticamente en períodos cortos.

Para probar esto, los investigadores repitieron sus consultas con dos meses de diferencia y midieron la estabilidad de los resultados. Para los usuarios que esperaban información confiable y repetible, el resultado fue preocupante.

Los resultados de la nueva prueba fueron decepcionantes. La búsqueda tradicional de Google mantuvo una coherencia del 45% en las fuentes que presentaba. En una caída, la descripción general de IA de Google mostró solo un 18% de consistencia, lo que significa que sus fuentes subyacentes eran casi completamente diferentes de una prueba a otra.

Esta inestabilidad sugiere que las respuestas sintetizadas que reciben los usuarios no sólo son diferentes de las de la búsqueda tradicional, sino que también son impredecibles de un día para otro, lo que socava su confiabilidad para cualquier tarea seria de investigación o verificación.

Luchando con el”ahora”: La IA falla en noticias urgentes

Para consultas urgentes sobre eventos recientes, el estudio reveló fallas críticas que resaltan el peligro de confiar en modelos de IA con conocimiento interno obsoleto. Los investigadores probaron los sistemas utilizando temas de actualidad, incluida una consulta sobre la”causa de muerte de Ricky Hatton”, un exboxeador que falleció en septiembre de 2025.

Ambos modelos GPT, cuando no dependían en gran medida de la recuperación web en tiempo real, no pasaron la prueba. Informaron incorrectamente que Hatton todavía estaba vivo, un error fáctico importante derivado de la falta de acceso a la información actual.

Esta falla específica demuestra una debilidad central: sin una recuperación sólida y dinámica, la búsqueda de IA puede presentar con confianza información peligrosamente desactualizada como un hecho. Si bien los sistemas de recuperación aumentada como Gemini funcionaron mejor, el incidente subraya los riesgos para las noticias de última hora o los eventos en evolución.

Una brecha de confianza cada vez mayor en la guerra de la información de la IA

Estos patrones de falta de confiabilidad se hacen eco de hallazgos recientes de un estudio histórico de la BBC, que encontró errores significativos en el 45% de las respuestas relacionadas con noticias de los asistentes de IA. Ese informe señaló el uso de “citas ceremoniales”, enlaces que parecen autorizados pero que en realidad no respaldan las afirmaciones realizadas.

Jean Philip De Tender, director de medios de la UER, señaló la naturaleza sistémica del problema.”Esta investigación muestra de manera concluyente que estas fallas no son incidentes aislados. Son sistémicas, transfronterizas y multilingües, y creemos que esto pone en peligro la confianza del público”.

Un creciente conjunto de evidencia alimenta un conflicto ya tenso entre las plataformas tecnológicas y los editores de noticias. Los editores argumentan que los motores de búsqueda de IA no solo no son confiables, sino que están dañando activamente sus negocios al extraer contenido para proporcionar respuestas directas, eliminando la necesidad de que los usuarios hagan clic para acceder a la fuente original.

Esta tendencia, confirmada por un estudio del Pew Research Center que muestra que los clics se desploman cuando aparecen resúmenes de IA, rompe el intercambio de valor de larga data de la web abierta.

Como dice Danielle Coffey, directora ejecutiva de AI News/Media Alliance, lo expresó:”Los enlaces fueron la última cualidad redentora de la búsqueda que dio a los editores tráfico e ingresos. Ahora Google simplemente toma el contenido por la fuerza y lo usa sin retorno”.

En última instancia, los autores del artículo sostienen que todo el marco para juzgar la calidad de la búsqueda necesita una revisión para la era de la IA. Las métricas actuales, diseñadas para listas clasificadas de enlaces, son insuficientes para evaluar estos nuevos sistemas.

“Nuestro trabajo demuestra la necesidad de nuevos métodos de evaluación que consideren conjuntamente la diversidad de fuentes, la cobertura conceptual y el comportamiento de síntesis en los sistemas de búsqueda generativa”.

Los autores también enfatizan la necesidad de mejores mecanismos para manejar la naturaleza acelerada de la información en línea.

“Estos hallazgos subrayan la importancia de integrar la conciencia temporal y la recuperación dinámica en marcos de evaluación de búsqueda generativa”.

Hasta que se desarrollen y adopten dichos estándares, la promesa de una búsqueda de IA más inteligente y rápida sigue empañada por problemas persistentes de confiabilidad, coherencia y confianza.

Categories: IT Info