Alibaba accélère la course mondiale sur l’IA avec Websailor, un nouvel agent Web open-source publié le 4 juillet. Développé par son laboratoire Tongyi, Websailor est conçu pour maîtriser des tâches de recherche d’informations très complexes qui éliminent les modèles les plus récents. La société affirme que son agent comble l’écart de performance avec les principaux systèmes propriétaires de concurrents comme Openai.
En utilisant une nouvelle méthodologie de formation axée sur les problèmes de forte incertitude, WebSailor peut naviguer dans de vastes paysages numériques pour trouver des réponses, une étape clé vers la réalisation de «surhumains». Cette version stratégique, disponible sur github , vise à cimenter l’alibaba dans le complexe de l’aliéné de l’alibaba férocement. Raisonnement
Au cœur de Websailor est une stratégie de formation sophistiquée conçue pour enseigner aux modèles comment gérer l’ambiguïté. L’approche va au-delà de simples réponses de questions, en se concentrant plutôt sur ce que les chercheurs appellent les problèmes de «niveau 3»: tâches sans chemin de solution claire qui nécessite une exploration profonde.
Pour générer ces défis, l’équipe a créé Sailorfog-qa, un pipeline de données de données . Il construit des graphiques de connaissances complexes à partir de sites Web du monde réel, puis obscurcit délibérément les informations-comme transformer des dates précises en périodes vagues-pour forcer l’agent à raisonner et à connecter des faits disparates.
Ces données sont utilisées dans un régime d’entraînement en deux étapes. Il commence par un rejet d’échantillonnage à réglage fin (RFT) «Début de froid» pour développer des compétences fondamentales. Ceci est suivi par l’apprentissage du renforcement à l’aide d’un algorithme personnalisé, duplication d’optimisation des politiques d’échantillonnage (DUPO), pour affiner efficacement les stratégies exploratoires de l’agent.
En définissant un nouveau benchmark open-source
Alibaba Position de la performance de la performance. Selon les repères publiés, la version 72B du modèle obtient les meilleurs scores sur les tests BrowsComp difficiles en anglais et en chinois.
sur la version chinoise de la référence, Websailor-72B a obtenu un score de 30,1, atteignant les autres modèles de transport. Lors du test anglais, il a marqué 12.0. Les chercheurs affirment que «WebSailor surpasse considérablement tous les agents open source dans des tâches complexes de recherche d’informations, correspondant aux performances des agents propriétaires et en combler l’écart des capacités».”
Alibaba Websailor AI Benchmarks par rapport aux compétiteurs (Source: Alibaba)
considérablement, les résultats suggèrent que les gains proviennent de la méthode de formation elle-même. Le document souligne que le modeste modèle Websailor-7b surpasse de manière décisive les agents construits sur des modèles 32b beaucoup plus grands, soulignant l’efficacité du nouveau paradigme.
L’agent montre également une forte compatibilité descendante. Bien qu’il ait été formé sur des problèmes extrêmement difficiles, Websailor dépasse d’autres méthodes sur la référence SimpleQA plus simple et basée sur des faits, démontrant que ses compétences de raisonnement avancées sont polyvalentes et ne compromettent pas les performances sur les tâches de base.
La navigation de la Chine Fierce Race
ne fait pas partie du vacuum. Il atterrit au milieu d’une «guerre de cent modèles» féroce en Chine, où les géants de la technologie sont agressivement ouverts de leur travail pour capturer la part de marché. Cette décision positionne stratégiquement Alibaba en tant que leader dans le développement avancé et ouvert de l’IA.
La tension compétitive a récemment été mise en évidence lorsqu’un groupe de recherche a allégué que le nouveau modèle Pangu de Huawei était une copie du modèle Qwen d’Alibaba. Le laboratoire de Huawei a émis un déni de ferme, déclarant que son modèle était «… non basé sur une formation incrémentielle des modèles d’autres fabricants…» et développé de manière indépendante.
Cette toile de fond de rivalité domestique intense comprend des acteurs majeurs comme Baidu avec ses modèles Ernie et Tencent avec Hunyuan, tous en train de faire la domination. Cette poussée est alimentée par des pressions géopolitiques plus larges, car les sanctions américaines limitent l’accès au matériel de haut niveau et obligent les entreprises chinoises à construire des écosystèmes autonomes.
Ces pressions s’étendent au-delà du matériel. Les partenariats majeurs sont confrontés à un examen international, comme on le voit lorsque le potentiel d’IA d’Apple avec Alibaba a attiré les contrecoups à Washington pour les problèmes de sécurité nationale. Cela oblige les géants de la technologie chinoise à naviguer dans un paysage complexe de concurrence intérieure et de politique mondiale.