在github上可用>推理
WebSailor的核心是一種複雜的培訓策略,旨在教授模型如何處理歧義。該方法超越了簡單的提問,而是專注於研究人員所說的“級別3″問題:沒有需要深入探索的清晰解決方案路徑的任務。
為了產生這些挑戰,團隊創建了
根據
此數據用於兩階段的培訓方案。首先是拒絕採樣微調(RFT)“冷啟動”以建立基礎技能。 This is followed by reinforcement learning using a custom algorithm, Duplicating Sampling Policy Optimization (DUPO), to refine the agent’s exploratory strategies efficiently.
Setting a New Open-Source Benchmark
Alibaba’s performance claims position WebSailor as a new state-of-the-art open-source agent.根據已發布的基準測試,該模型的72B版本在英語和中文的困難browsecomp測試中取得了最高的成績。
在中文版本的基準測試中,WebSailor-72B得分為30.1,與Presie carity carity carity carity,以doubao-search搜索的所有開放式模型,並與其他開放式型號相比,並獲得了其他銷售模型。在英語測試中,它得分為12.0。研究人員斷言:“ Webailor在復雜的信息尋求任務中大大優於所有開源代理商,匹配專有代理商的表現並縮小了能力差距。 ”
alibaba websailor ai代理Ager Agent Benchmarks vs.競爭者(來源:Alibaba)
很大程度上表明了訓練方法。該論文強調的是,適中的Weberor-7b型號果斷地勝過構建在更大的32B型號上的代理,強調了新範式的功效。
該代理也顯示出強大的向下兼容性。儘管接受了極其困難的問題的培訓,但Webailor在基於事實的SimpleQA基準測試方面超過了其他方法,這表明其先進的推理技能多才多藝,並且不會損害基本任務的性能。
在中國兇猛的AI Race Race
中不存在該發行版。它在中國猛烈的“一百個車型戰爭”中降落,在那裡,科技巨頭正在積極開放式工作以捕捉市場份額。此舉從戰略上將阿里巴巴定位為高級,開放AI開發的領導者。
最近,當一個研究小組稱華為新的Pangu模型是阿里巴巴自己的Qwen模型的副本時,競爭緊張。華為實驗室發布了一個堅定的否認,指出其模型是“……不是基於對其他製造商模型的增量培訓……”並獨立發展。
這種激烈的家庭競爭的背景包括Baidu等主要參與者,包括Baidu和其Ernie Models和Hunyuan的Tencent一樣,與Hunyuan一起進行了競爭。這項推動是由更大的地緣政治壓力推動的,因為美國的製裁限制了對頂級硬件的訪問權限,並迫使中國公司建立自力更生的生態系統。
這些壓力超出了硬件。主要的合作夥伴關係面臨國際審查,就像蘋果與阿里巴巴的潛在AI在華盛頓對國家安全關注的反對時所見。這迫使中國科技巨頭在國內競爭和全球政治的複雜景觀中瀏覽。