Một nghiên cứu học thuật mới đang đặt ra nghi ngờ nghiêm trọng về độ tin cậy của tìm kiếm do AI cung cấp từ Google và OpenAI. Một bài nghiên cứu được xuất bản gần đây cho thấy các công cụ tìm kiếm tổng hợp thường sử dụng ít hoặc ít nguồn phổ biến hơn so với Google Tìm kiếm truyền thống.

Các hệ thống AI cũng gặp khó khăn với các chủ đề nhạy cảm về thời gian và thể hiện sự mâu thuẫn lớn chỉ sau vài tháng. Những phát hiện này cho thấy rằng mặc dù AI có thể cung cấp câu trả lời nhanh chóng nhưng nó thường tụt hậu về độ chính xác và chất lượng nguồn, đặt ra thách thức cho những người dùng dựa vào tìm kiếm để có được thông tin cập nhật.

Canh bạc tìm kiếm của AI trên ít nguồn hơn, ít phổ biến hơn

Đi sâu vào cơ chế tìm kiếm của AI, bài viết xuất bản trên arXiv tiết lộ sự thay đổi cơ bản về cách lấy nguồn thông tin. Các nhà nghiên cứu Elisabeth Kirsten và các đồng nghiệp của cô đã so sánh Google Tìm kiếm truyền thống với bốn hệ thống AI tổng hợp—Tổng quan về AI của Google, Gemini 2.5 Flash, GPT-4o Search và GPT-4o bằng một công cụ tìm kiếm.

Phân tích của họ về hơn 4.600 truy vấn bao gồm kiến thức tổng quát, chính trị, khoa học và mua sắm cho thấy rằng các kết quả do AI tạo ra thường lấy từ một phần khác và thường ít nổi bật hơn trên web.

A nổi bật là 53% trang web được liên kết bởi Tổng quan về AI của Google không xuất hiện trong 10 kết quả tìm kiếm thông thường hàng đầu. Điều này cho thấy sự khác biệt đáng kể so với các tín hiệu xếp hạng đã thiết lập của tìm kiếm truyền thống.

Trích dẫn ít nguồn hơn nhiều so với các đối tác của nó, GPT-4o của OpenAI với công cụ tìm kiếm chỉ dựa vào trung bình 0,4 trang web cho mỗi truy vấn, chủ yếu dựa vào kiến ​​thức nội bộ được đào tạo trước của nó.

Ngược lại, Tổng quan về AI của Google và Gemini đều trích dẫn trung bình hơn 8,5 trang, cho thấy tỷ lệ lớn hơn dựa vào truy xuất web bên ngoài. Đối với các truy vấn không rõ ràng, nghiên cứu lưu ý rằng tìm kiếm truyền thống vẫn cung cấp phạm vi bao quát tốt hơn cho nhiều quan điểm.

Không ổn định và không đáng tin cậy: Câu trả lời AI thay đổi theo ngày

Ngoài việc tìm nguồn cung ứng, nghiên cứu này còn bộc lộ một lỗ hổng nghiêm trọng về tính nhất quán. Các công cụ tìm kiếm tổng hợp dường như rất dễ biến động, với các câu trả lời và nguồn thay đổi đáng kể trong thời gian ngắn.

Để kiểm tra điều này, các nhà nghiên cứu lặp lại các truy vấn của họ cách nhau hai tháng và đo lường độ ổn định của kết quả. Đối với những người dùng mong đợi thông tin đáng tin cậy và có thể lặp lại, kết quả này thật đáng lo ngại.

Kết quả từ cuộc kiểm tra lại thật đáng thất vọng. Tìm kiếm truyền thống của Google duy trì mức độ nhất quán 45% trong các nguồn mà nó trình bày. Trong phần nhỏ hơn, phần Tổng quan về AI của Google chỉ cho thấy độ nhất quán 18%, nghĩa là các nguồn cơ bản của nó hầu như khác hoàn toàn giữa các thử nghiệm tiếp theo.

Sự không ổn định này cho thấy rằng các câu trả lời tổng hợp mà người dùng nhận được không chỉ khác với tìm kiếm truyền thống mà còn không thể đoán trước được từ ngày này sang ngày khác, làm giảm độ tin cậy của chúng đối với bất kỳ nhiệm vụ xác minh hoặc nghiên cứu nghiêm túc nào.

Đấu tranh với’Bây giờ’: AI thất bại đối với tin tức nhạy cảm về thời gian

Đối với các truy vấn nhạy cảm về thời gian về các sự kiện gần đây, nghiên cứu đã tiết lộ những thất bại nghiêm trọng làm nổi bật mối nguy hiểm khi dựa vào các mô hình AI với kiến thức nội bộ lỗi thời. Các nhà nghiên cứu đã thử nghiệm hệ thống bằng cách sử dụng các chủ đề thịnh hành, bao gồm một truy vấn về “nguyên nhân cái chết của Ricky Hatton”, một cựu võ sĩ quyền anh đã qua đời vào tháng 9 năm 2025.

Cả hai mô hình GPT, khi không phụ thuộc nhiều vào truy xuất web theo thời gian thực, đã thất bại trong cuộc thử nghiệm. Họ đã báo cáo không chính xác rằng Hatton vẫn còn sống, một lỗi thực tế nghiêm trọng xuất phát từ việc thiếu quyền truy cập vào thông tin hiện tại.

Thất bại cụ thể này thể hiện điểm yếu cốt lõi: nếu không có khả năng truy xuất linh hoạt và mạnh mẽ, tính năng tìm kiếm AI có thể tự tin đưa ra thông tin lỗi thời nguy hiểm như thông tin thực tế. Trong khi các hệ thống tăng cường truy xuất như Gemini hoạt động tốt hơn, thì sự cố này cho thấy rủi ro đối với các tin tức nóng hổi hoặc các sự kiện đang phát triển.

Khoảng cách tin cậy ngày càng mở rộng trong cuộc chiến thông tin AI

Những kiểu không đáng tin cậy như vậy phản ánh những phát hiện gần đây từ một nghiên cứu mang tính bước ngoặt của BBC, trong đó phát hiện ra lỗi đáng kể trong 45% câu trả lời liên quan đến tin tức từ trợ lý AI. Báo cáo đó ghi nhận việc sử dụng “trích dẫn mang tính nghi lễ”—các liên kết có vẻ đáng tin cậy nhưng thực tế không hỗ trợ cho các tuyên bố được đưa ra.

Jean Philip De Tender, Giám đốc truyền thông tại EBU, đã lưu ý đến bản chất mang tính hệ thống của vấn đề.”Nghiên cứu này cho thấy một cách thuyết phục rằng những sai sót này không phải là những sự cố riêng lẻ. Chúng mang tính hệ thống, xuyên biên giới và đa ngôn ngữ. Chúng tôi tin rằng điều này gây nguy hiểm cho niềm tin của công chúng.”

Ngày càng có nhiều bằng chứng thúc đẩy xung đột vốn đã căng thẳng giữa các nền tảng công nghệ và nhà xuất bản tin tức. Các nhà xuất bản lập luận rằng các công cụ tìm kiếm AI không những không đáng tin cậy mà còn đang tích cực gây tổn hại cho hoạt động kinh doanh của họ bằng cách thu thập nội dung để đưa ra câu trả lời trực tiếp, loại bỏ nhu cầu người dùng nhấp qua nguồn ban đầu.

Xu hướng này được xác nhận bởi một nghiên cứu của Trung tâm Nghiên cứu Pew cho thấy số lần nhấp chuột giảm mạnh khi Tổng quan về AI xuất hiện, phá vỡ sự trao đổi giá trị lâu đời của web mở.

Như Danielle Coffey, Giám đốc điều hành của News/Media Alliance cho biết:”Liên kết là chất lượng tìm kiếm cuối cùng mang lại cho nhà xuất bản lưu lượng truy cập và doanh thu. Giờ đây, Google chỉ lấy nội dung bằng vũ lực và sử dụng nội dung đó mà không trả lại”.

Cuối cùng, các tác giả của bài báo cho rằng toàn bộ khuôn khổ đánh giá chất lượng tìm kiếm cần được xem xét lại trong kỷ nguyên AI. Các số liệu hiện tại, được thiết kế cho danh sách liên kết được xếp hạng, không đủ để đánh giá các hệ thống mới này.

“Công việc của chúng tôi chứng minh sự cần thiết của các phương pháp đánh giá mới cùng xem xét tính đa dạng nguồn, phạm vi khái niệm và hành vi tổng hợp trong các hệ thống tìm kiếm tổng hợp.”

Các tác giả cũng nhấn mạnh sự cần thiết phải có cơ chế tốt hơn để xử lý tính chất phát triển nhanh của thông tin trực tuyến.

“Những phát hiện này nhấn mạnh tầm quan trọng về việc tích hợp nhận thức tạm thời và truy xuất động vào các khung đánh giá tìm kiếm tổng quát.”

Cho đến khi các tiêu chuẩn đó được phát triển và áp dụng, lời hứa về một công cụ tìm kiếm AI thông minh hơn, nhanh hơn vẫn bị che mờ bởi các vấn đề dai dẳng về độ tin cậy, tính nhất quán và sự tin cậy.

Categories: IT Info