阿里巴巴正在加速與Webailor(7月4日發布的新開源Web代理)一起加速全球AI競賽。由其Tongyi Lab開發的WebSailor經過設計,旨在掌握使大多數當前模型混淆的高度複雜信息尋求信息的任務。該公司聲稱其代理商通過諸如OpenAI之類的競爭對手的領先專有系統縮小了績效差距。

使用針對高度不確定性問題的新型培訓方法,WebSailor可以在廣闊的數字景觀中瀏覽以找到答案,這是實現“超人人類”推理的關鍵一步。這個戰略版本,在github上可用>推理

WebSailor的核心是一種複雜的培訓策略,旨在教授模型如何處理歧義。該方法超越了簡單的提問,而是專注於研究人員所說的“級別3″問題:沒有需要深入探索的清晰解決方案路徑的任務。

為了產生這些挑戰,團隊創建了

根據

此數據用於兩階段的培訓方案。首先是拒絕採樣微調(RFT)“冷啟動”以建立基礎技能。 This is followed by reinforcement learning using a custom algorithm, Duplicating Sampling Policy Optimization (DUPO), to refine the agent’s exploratory strategies efficiently.

Setting a New Open-Source Benchmark

Alibaba’s performance claims position WebSailor as a new state-of-the-art open-source agent.根據已發布的基準測試,該模型的72B版本在英語和中文的困難browsecomp測試中取得了最高的成績。

在中文版本的基準測試中,WebSailor-72B得分為30.1,與Presie carity carity carity carity,以doubao-search搜索的所有開放式模型,並與其他開放式型號相比,並獲得了其他銷售模型。在英語測試中,它得分為12.0。研究人員斷言:“ Webailor在復雜的信息尋求任務中大大優於所有開源代理商,匹配專有代理商的表現並縮小了能力差距。 ”

alibaba websailor ai代理Ager Agent Benchmarks vs.競爭者(來源:Alibaba)

很大程度上表明了訓練方法。該論文強調的是,適中的Weberor-7b型號果斷地勝過構建在更大的32B型號上的代理,強調了新範式的功效。

該代理也顯示出強大的向下兼容性。儘管接受了極其困難的問題的培訓,但Webailor在基於事實的SimpleQA基準測試方面超過了其他方法,這表明其先進的推理技能多才多藝,並且不會損害基本任務的性能。

在中國兇猛的AI Race Race

中不存在該發行版。它在中國猛烈的“一百個車型戰爭”中降落,在那裡,科技巨頭正在積極開放式工作以捕捉市場份額。此舉從戰略上將阿里巴巴定位為高級,開放AI開發的領導者。

最近,當一個研究小組稱華為新的Pangu模型是阿里巴巴自己的Qwen模型的副本時,競爭緊張。華為實驗室發布了一個堅定的否認,指出其模型是“……不是基於對其他製造商模型的增量培訓……”並獨立發展。

這種激烈的家庭競爭的背景包括Baidu等主要參與者,包括Baidu和其Ernie Models和Hunyuan的Tencent一樣,與Hunyuan一起進行了競爭。這項推動是由更大的地緣政治壓力推動的,因為美國的製裁限制了對頂級硬件的訪問權限,並迫使中國公司建立自力更生的生態系統。

這些壓力超出了硬件。主要的合作夥伴關係面臨國際審查,就像蘋果與阿里巴巴的潛在AI在華盛頓對國家安全關注的反對時所見。這迫使中國科技巨頭在國內競爭和全球政治的複雜景觀中瀏覽。