Alibaba mempercepat perlombaan AI global dengan WebSailor, agen web open-source baru yang dirilis pada 4 Juli. Dikembangkan oleh laboratorium Tongyi, WebSailor direkayasa untuk menguasai tugas-tugas pencarian informasi yang sangat kompleks yang membuat model terkini. Perusahaan mengklaim agennya menutup kesenjangan kinerja dengan sistem kepemilikan terkemuka dari pesaing seperti OpenAi.

Menggunakan metodologi pelatihan baru yang berfokus pada masalah ketidakpastian tinggi, WebSAILOR dapat menavigasi lanskap digital yang luas untuk menemukan jawaban, langkah kunci menuju pencapaian penalaran”superhuman”. Rilis strategis ini, tersedia di github , bertujuan untuk melemahkan posisi alibaba

Di jantung WebSailor adalah strategi pelatihan canggih yang dirancang untuk mengajarkan model cara menangani ambiguitas. Pendekatan ini bergerak melampaui pertanyaan sederhana, sebagai gantinya berfokus pada apa yang oleh para peneliti disebut masalah”level 3″: tugas tanpa jalur solusi yang jelas yang memerlukan eksplorasi mendalam.

Untuk menghasilkan tantangan-tantangan ini, tim menciptakan sailorfog-QA, a data sintesis data. Ini membangun grafik pengetahuan yang kompleks dari situs web dunia nyata dan kemudian dengan sengaja mengaburkan informasi-seperti mengubah tanggal yang tepat menjadi periode yang tidak jelas-untuk memaksa agen untuk bernalar dan menghubungkan fakta yang berbeda.

Tujuannya, menurut pelatihan

Data ini digunakan dalam rejimen pelatihan dua tahap. Ini dimulai dengan penolakan pengambilan sampel fine-tuning (RFT) “Cold Start” untuk membangun keterampilan dasar. Ini diikuti oleh pembelajaran penguatan menggunakan algoritma khusus, menduplikasi pengoptimalan kebijakan pengambilan sampel (DUPO), untuk memperbaiki strategi eksplorasi agen secara efisien.

menetapkan tolok ukur open-source yang baru

Kinerja Alibaba mengklaim posisi Web-Open-Open-Open. Menurut tolok ukur yang diterbitkan, versi 72B dari model ini mencapai skor tertinggi pada tes browsecomp yang sulit dalam bahasa Inggris dan Cina.

Pada versi Cina dari tolok ukur, WebSailor-72B mencetak 30,1, mencapai paritas dengan agen-agen kepemilikan seperti Doubao-Search dan secara signifikan membentuk pengaman lainnya. Pada tes bahasa Inggris, mencetak 12,0. The researchers assert that “WebSailor significantly outperforms all open-source agents in complex information-seeking tasks, matching proprietary agents’ performance and closing the capability gap.”

Alibaba Websailor AI Agent Benchmarks vs. Competitors (Source: Alibaba)

Significantly, the results suggest the gains come from the training method itself. Makalah ini menyoroti bahwa model WebSAILOR-7B sederhana dengan tegas mengungguli agen yang dibangun di atas model 32B yang jauh lebih besar, menggarisbawahi kemanjuran paradigma baru.

Agen juga menunjukkan kompatibilitas ke bawah yang kuat. Meskipun dilatih tentang masalah yang sangat sulit, WebSailor melampaui metode lain pada tolok ukur SimpleQA yang lebih sederhana dan berbasis fakta, menunjukkan bahwa keterampilan penalaran canggihnya serbaguna dan tidak membahayakan kinerja pada tugas-tugas dasar.

menavigasi rilis AI China yang ada. Ini mendarat di tengah-tengah”perang seratus model”yang sengit di Cina, di mana raksasa teknologi secara agresif open-sourcing pekerjaan mereka untuk menangkap pangsa pasar. Langkah ini secara strategis memposisikan Alibaba sebagai pemimpin dalam pengembangan AI yang maju dan terbuka.

Ketegangan kompetitif baru-baru ini disorot ketika sebuah kelompok penelitian menuduh model pangu baru Huawei adalah salinan model Qwen Alibaba sendiri. Laboratorium Huawei mengeluarkan penolakan yang kuat, yang menyatakan modelnya adalah”… tidak didasarkan pada pelatihan tambahan dari model produsen lain…”dan dikembangkan secara mandiri.

Latar belakang persaingan domestik yang intens ini termasuk pemain utama seperti Baidu dengan model Ernie dan tencent dengan Hunyuan, semua dominan berlomba. Dorongan ini didorong oleh tekanan geopolitik yang lebih luas, karena sanksi A.S. membatasi akses ke perangkat keras tingkat atas dan memaksa perusahaan Cina untuk membangun ekosistem mandiri.

Tekanan ini melampaui perangkat keras. Kemitraan besar menghadapi pengawasan internasional, seperti yang terlihat ketika potensi AI yang potensial dengan Alibaba menarik reaksi di Washington atas masalah keamanan nasional. Ini memaksa raksasa teknologi Cina untuk menavigasi lanskap kompetisi domestik yang kompleks dan politik global.