Sebuah studi akademis baru menimbulkan keraguan serius terhadap keandalan penelusuran bertenaga AI dari Google dan OpenAI. Makalah penelitian yang diterbitkan baru-baru ini menemukan bahwa alat penelusuran generatif sering kali menggunakan sumber yang lebih sedikit atau kurang populer dibandingkan Google Penelusuran tradisional.
Sistem AI juga kesulitan dengan topik yang sensitif terhadap waktu dan menunjukkan inkonsistensi besar hanya dalam beberapa bulan. Temuan ini menunjukkan bahwa meskipun AI dapat memberikan jawaban cepat, AI sering kali tertinggal dalam hal akurasi dan kualitas sumber, sehingga menimbulkan tantangan bagi pengguna yang mengandalkan penelusuran untuk mendapatkan informasi terkini.
Penelusuran AI Berjudi pada Sumber yang Lebih Sedikit dan Kurang Populer
Menggali mekanisme penelusuran AI, makalah yang diterbitkan di arXiv mengungkapkan perubahan mendasar dalam cara memperoleh informasi. Peneliti Elisabeth Kirsten dan rekan-rekannya membandingkan Google Penelusuran tradisional dengan empat sistem AI generatif—Ikhtisar AI Google, Gemini 2.5 Flash, Penelusuran GPT-4o, dan GPT-4o dengan alat penelusuran.
Analisis mereka terhadap lebih dari 4.600 kueri yang mencakup pengetahuan umum, politik, sains, dan belanja menemukan bahwa hasil yang dihasilkan AI sering kali diambil dari bagian web yang berbeda, dan sering kali kurang menonjol.
Sebanyak 53% situs web yang ditautkan oleh Ikhtisar AI Google tidak muncul dalam 10 hasil penelusuran konvensional teratas. Hal ini menunjukkan perbedaan yang signifikan dari sinyal peringkat yang sudah ada pada penelusuran tradisional.
Mengutip sumber yang jauh lebih sedikit dibandingkan rekan-rekannya, OpenAI GPT-4o dengan alat penelusuran mengandalkan rata-rata hanya 0,4 halaman web per kueri, dan sangat bergantung pada pengetahuan internal yang telah dilatih sebelumnya.
Sebaliknya, Ikhtisar AI Google dan Gemini keduanya mengutip rata-rata lebih dari 8,5 halaman, menunjukkan a ketergantungan yang lebih besar pada pengambilan web eksternal. Untuk pertanyaan yang ambigu, penelitian ini mencatat bahwa penelusuran tradisional masih memberikan cakupan yang lebih baik dari berbagai sudut pandang.
Tidak Stabil dan Tidak Dapat Diandalkan: AI Menjawab Perubahan dari Hari ke Hari
Selain sumber daya, penelitian ini mengungkap kelemahan kritis dalam konsistensi. Mesin pencari generatif tampaknya sangat fluktuatif, dengan jawaban dan sumber yang berubah secara dramatis dalam waktu singkat.
Untuk mengujinya, para peneliti mengulangi pertanyaan mereka dalam selang waktu dua bulan dan mengukur stabilitas hasilnya. Bagi pengguna yang mengharapkan informasi yang dapat diandalkan dan diulang, hasilnya mengkhawatirkan.
Hasil dari pengujian ulang mengecewakan. Penelusuran Google tradisional mempertahankan konsistensi 45% dalam sumber yang disajikan. Sebaliknya, Ikhtisar AI Google hanya menunjukkan konsistensi 18%, yang berarti sumber dasarnya hampir seluruhnya berbeda dari satu pengujian ke pengujian berikutnya.
Ketidakstabilan ini menunjukkan bahwa jawaban gabungan yang diterima pengguna tidak hanya berbeda dari penelusuran tradisional, namun juga tidak dapat diprediksi dari hari ke hari, sehingga melemahkan keandalan jawaban tersebut untuk tugas penelitian atau verifikasi yang serius.
Berjuang dengan tantangan tersebut. ‘Sekarang’: AI Gagal dalam Berita yang Sensitif terhadap Waktu
Untuk pertanyaan yang sensitif terhadap waktu tentang peristiwa terkini, penelitian ini mengungkapkan kegagalan kritis yang menyoroti bahayanya mengandalkan model AI dengan pengetahuan internal yang sudah ketinggalan zaman. Para peneliti menguji sistem menggunakan topik yang sedang tren, termasuk satu kueri tentang “penyebab kematian Ricky Hatton”, seorang mantan petinju yang meninggal dunia pada bulan September 2025.
Kedua model GPT, ketika tidak terlalu mengandalkan pengambilan web real-time, gagal dalam pengujian. Mereka salah melaporkan bahwa Hatton masih hidup, sebuah kesalahan faktual yang signifikan yang berasal dari kurangnya akses terhadap informasi terkini.
Kegagalan khusus ini menunjukkan kelemahan utama: tanpa pengambilan yang kuat dan dinamis, penelusuran AI dapat dengan yakin menyajikan informasi usang yang berbahaya sebagai fakta. Meskipun sistem yang dilengkapi pengambilan data seperti Gemini memiliki kinerja yang lebih baik, insiden ini menekankan risiko terhadap berita terkini atau peristiwa yang berkembang.
Kesenjangan Kepercayaan yang Semakin Melebar dalam Perang Informasi AI
Pola ketidakandalan seperti ini mencerminkan temuan baru-baru ini dari penelitian penting di BBC, yang menemukan kesalahan signifikan dalam 45% jawaban terkait berita dari AI asisten. Laporan tersebut mencatat penggunaan “kutipan seremonial”—tautan yang terlihat resmi namun tidak benar-benar mendukung klaim yang dibuat.
Jean Philip De Tender, Direktur Media di EBU, mencatat sifat sistemik dari masalah ini. “Penelitian ini secara meyakinkan menunjukkan bahwa kegagalan ini bukanlah sebuah insiden tunggal. Kegagalan ini terjadi secara sistemik, lintas negara, dan multibahasa, dan kami yakin hal ini membahayakan kepercayaan publik.”
Semakin banyak bukti yang memicu konflik yang sudah tegang antara platform teknologi dan penerbit berita. Para penerbit berpendapat bahwa mesin pencari AI tidak hanya tidak dapat diandalkan namun juga secara aktif merusak bisnis mereka dengan menghapus konten untuk memberikan jawaban langsung, sehingga menghilangkan kebutuhan pengguna untuk mengklik ke sumber aslinya.
Tren ini, dikonfirmasi oleh studi Pew Research Center yang menunjukkan jumlah klik menurun ketika Ikhtisar AI muncul, mematahkan pertukaran nilai yang telah lama ada di web terbuka.
Seperti yang dikatakan Danielle Coffey, CEO dari web terbuka. News/Media Alliance, menyatakan,”Tautan adalah kualitas penelusuran terakhir yang memberikan traffic dan pendapatan bagi penerbit. Kini Google hanya mengambil konten secara paksa dan menggunakannya tanpa imbalan apa pun.”
Pada akhirnya, penulis makalah ini berpendapat bahwa seluruh kerangka kerja untuk menilai kualitas penelusuran perlu dirombak untuk era AI. Metrik saat ini, yang dirancang untuk daftar peringkat tautan, tidak cukup untuk mengevaluasi sistem baru ini.
“Pekerjaan kami menunjukkan perlunya metode evaluasi baru yang bersama-sama mempertimbangkan keragaman sumber, cakupan konseptual, dan perilaku sintesis dalam sistem pencarian generatif.”
Para penulis juga menekankan perlunya mekanisme yang lebih baik untuk menangani sifat informasi online yang bergerak cepat.
“Temuan ini menggarisbawahi pentingnya tentang mengintegrasikan kesadaran temporal dan pengambilan dinamis ke dalam kerangka evaluasi penelusuran generatif.”
Sampai standar tersebut dikembangkan dan diadopsi, janji akan penelusuran AI yang lebih cerdas dan cepat masih tertutupi oleh masalah keandalan, konsistensi, dan kepercayaan yang terus-menerus terjadi.