Penyelidik Alibaba telah memperkenalkan Zerosearch, rangka kerja perintis yang ditetapkan untuk mentakrifkan semula bagaimana model bahasa yang besar (LLMS) memperoleh kemahiran pengambilan maklumat. Sistem baru ini melatih AI untuk mensimulasikan interaksi enjin carian, dengan berkesan belajar untuk’Google sendiri’tanpa tag harga tinggi panggilan API komersial secara langsung. Perkembangan, yang terperinci dalam A kertas saintifik boleh menurunkan halangan untuk mewujudkan sistem yang boleh dibebaskan LLM yang dipertingkatkan dengan 88 peratus yang mengejutkan, menurut penyelidik. Ini dicapai dengan menghalang keperluan untuk apa yang diterangkan oleh kertas penyelidikan sebagai”peluncuran yang kerap, yang berpotensi melibatkan beratus-ratus ribu permintaan carian, yang menanggung perbelanjaan API yang besar dan mengekang skalabilitas.”Enjin. platform. Alibaba Cloud menyatakan tentang pendekatan itu,”Kami telah mencipta sistem di mana LLM boleh membangunkan kemahiran carian melalui simulasi, menghapuskan keperluan untuk carian dunia yang berintensifkan sumber.”Mereka menambah,”Ini menjadikan AI maju lebih mudah diakses oleh organisasi dari semua saiz.”
Alibaba telah menekankan komitmennya untuk mengamalkan lebih luas dengan membuat kod zerosearch, dataset, dan model terlatih secara terbuka melalui halaman projek zerosearch , memupuk pengangkatan dan penyelidikan selanjutnya. Bermula dengan proses penalaan halus (SFT) yang diselia ringan. Langkah awal ini mengubah LLM menjadi modul”pengambilan semula”khusus. Modul ini direka untuk menghasilkan kedua-dua dokumen yang berkaitan dan, yang penting,”bising”atau dokumen yang tidak relevan sebagai tindak balas kepada pertanyaan. Mereka selanjutnya menghuraikan bahawa”perbezaan utama antara enjin carian sebenar dan simulasi llm terletak pada gaya tekstual kandungan yang dikembalikan.”Secara beransur-ansur terdegradasi dari masa ke masa untuk mensimulasikan senario pengambilan yang semakin mencabar.”
Degradasi kualiti maklumat terkawal ini membolehkan AI pertama menguasai mekanik carian asas dan format output. Seterusnya, ia belajar untuk menavigasi landskap maklumat yang lebih kompleks dan samar-samar. Pembelajaran sistem dipandu oleh mekanisme ganjaran berdasarkan skor F1, yang memberi tumpuan kepada ketepatan jawapan yang dihasilkan dari hasil carian simulasi.
Prestasi yang mengagumkan dan pengurangan kos dramatik Eksperimen yang komprehensif merentasi tujuh utama dataset soal selidik telah menunjukkan keupayaannya. Menurut liputan VentureBeat, A 7-bilion parameter zerosearch modul pengambilan href=”https://huggingface.co/sunhaonlp/searchsimulation_14b”target=”_ blank”> versi parameter 14-bilion dilaporkan melebihi carian Google. Halaman Projek ZeroSearch sendiri menyatakan bahawa”Enjin Simulasi 7B yang disesuaikan (SFT-7B) mencapai prestasi yang setanding dengan carian Google, manakala varian 14b (SFT-14B) bahkan melampauinya.”Dalam ujian penanda aras, model 7B Zerosearch menjaringkan 33.06 dan model 14Bnya menjaringkan 33.97, kedua-duanya melepasi skor Google sebanyak 32.47.
Kelebihan kewangan adalah asas kepada rayuan Zerosearch. Analisis kos pasukan Alibaba, yang terperinci dalam kertas ARXIV mereka, menggambarkan bahawa latihan dengan kira-kira 64,000 pertanyaan carian menggunakan Carian Google melalui Serpapi biasanya kos sekitar $ 586.70. Sebaliknya, menggunakan simulasi 14B-parameter LLM dengan ZerOSearch pada empat A100 GPU hanya $ 70.80-pengurangan 88% dalam perbelanjaan yang berkaitan dengan API. Kecekapan kos ini serasi dengan pelbagai keluarga model, termasuk qwen-2.5 dan llama-3.2, dengan sumber-sumber yang tersedia pada