Dessa data används i en tvåstegs träningsprogram. Det börjar med en avslag på provtagning av finjustering (RFT)”Cold Start”för att bygga grundläggande färdigheter. This is followed by reinforcement learning using a custom algorithm, Duplicating Sampling Policy Optimization (DUPO), to refine the agent’s exploratory strategies efficiently.
Setting a New Open-Source Benchmark
Alibaba’s performance claims position WebSailor as a new state-of-the-art open-source agent. Enligt de publicerade riktmärkena uppnår 72B-versionen av modellen toppresultat på de svåra BrowsComp-testerna på både engelska och kinesiska.
på den kinesiska versionen av benchmarken, WebSailor-72B fick 30.1, uppnå paritet med proprietära agenter som Doubao-sökning och avsevärt outperformande andra öppna-modeller. På det engelska testet fick det 12,0. Forskarna hävdar att”Websailor avsevärt överträffar alla öppna källkodsagenter i komplexa informationssökande uppgifter, matchande äganderättsagenters prestanda och stänga kapacitetsgapet.”
alibaba-webben AI-agentens benchmarks mot konkurrenter (källa: alibaba)
betydande, resultaten kommer från själva utbildningsmetoden. Uppsatsen belyser att den blygsamma WebSailor-7B-modellen avgörande överträffar agenter som bygger på mycket större 32B-modeller, vilket understryker effekten av det nya paradigmet.
Agenten visar också stark nedåtkompatibilitet. Trots att han utbildas på extremt svåra problem överträffar WebSailor andra metoder på det enklare, faktabaserade SimpleQA-benchmarket, vilket visar att dess avancerade resonemang är mångsidiga och inte komprometterar prestanda på grundläggande uppgifter. Det landar mitt i ett hårt”krig med hundra modeller”i Kina, där tekniska jättar aggressivt öppnar sitt arbete för att fånga marknadsandelar. Flytten placerar strategiskt Alibaba som ledande inom avancerad, öppen AI-utveckling.
Den konkurrensspänningen lyfte nyligen fram när en forskargrupp påstod Huaweis nya Pangu-modell var en kopia av Alibabas egen Qwen-modell. Huaweis laboratorium gav ut ett fast förnekande och uppgav att dess modell var”… inte baserad på inkrementell utbildning av andra tillverkares modeller…”och utvecklades oberoende.
Denna bakgrund av intensiv inhemsk rivalitet inkluderar stora spelare som Baidu med sina Ernie-modeller och tencent med Hunyuan, alla styre efter dominans. Denna push drivs av bredare geopolitiska påtryckningar, eftersom amerikanska sanktioner begränsar tillgången till topphårdvara och tvingar kinesiska företag att bygga självberoende ekosystem.
Dessa tryck sträcker sig utöver hårdvara. Stora partnerskap möter internationell granskning, vilket ses när Apples potentiella AI-hanterar Alibaba drog motreaktion i Washington över nationella säkerhetsproblem. Detta tvingar kinesiska tekniska jättar att navigera i ett komplext landskap av inhemsk konkurrens och global politik.