Alibaba está acelerando a corrida global de IA com o WebsAilor, um novo agente da web de código aberto lançado em 4 de julho. Desenvolvido por seu laboratório Tongyi, o WebSailor é projetado para dominar tarefas de busca de informações altamente complexas que confundem os modelos mais atuais. A empresa afirma que seu agente fecha a lacuna de desempenho com os principais sistemas proprietários de concorrentes como o OpenAI. Este lançamento estratégico, disponível no github , tem como objetivo citar a posição de alibaba na fiercely a) ai. Raciocínio

No coração do Websilor é uma sofisticada estratégia de treinamento projetada para ensinar modelos a lidar com a ambiguidade. A abordagem vai além da simples resposta à pergunta, concentrando-se no que os pesquisadores chamam de problemas de “Nível 3″: tarefas sem caminho claro de solução que requerem exploração profunda.

Para gerar esses desafios, a equipe criou sailorfog-qa, synthishesis, um síntese de synthesis. Ele constrói gráficos de conhecimento complexos a partir de sites do mundo real e, em seguida, deliberadamente obscurece as informações-como transformar datas precisas em períodos vagos-a forçar o agente a raciocinar e conectar fatos díspares.”Transcender limitações cognitivas humanas representa uma fronteira crítica no treinamento de LLM”. A equipe também evita imitar diretamente o raciocínio detalhado dos modelos de professores. Em vez disso, eles reconstruem pensamentos concisos e orientados para a ação para os dados de treinamento, impedindo a “contaminação estilística”.”

Esses dados são usados ​​em um regime de treinamento em dois estágios. Começa com uma rejeição de amostragem de ajuste fino (RFT)”Start Cold”para construir habilidades fundamentais. Isto é seguido pelo aprendizado de reforço usando um algoritmo personalizado, duplicando a otimização de políticas de amostragem (DUPO), para refinar as estratégias exploratórias do agente com eficiência. De acordo com os benchmarks publicados, a versão 72B do modelo atinge as principais pontuações nos testes difíceis de navegação em inglês e chinês. No teste em inglês, marcou 12.0. Os pesquisadores afirmam que”o WebSilor supera significativamente todos os agentes de código aberto em tarefas complexas de busca de informações, combinando o desempenho dos agentes proprietários e fechando a lacuna de capacidade”. O artigo destaca que o modesto modelo Websilor-7b supera decisivamente os agentes construídos em modelos 32B muito maiores, destacando a eficácia do novo paradigma.

O agente também mostra forte compatibilidade descendente. Apesar de ter sido treinado em problemas extremamente difíceis, o webilor supera outros métodos na referência simples e simples baseada em fatos, demonstrando que suas habilidades avançadas de raciocínio são versáteis e não comprometem o desempenho nas tarefas básicas. Ele chega em meio a uma feroz “guerra de cem modelos” na China, onde os gigantes da tecnologia estão de origem agressiva de seu trabalho para capturar participação de mercado. A medida posiciona estrategicamente o Alibaba como líder em desenvolvimento avançado e aberto de IA. O laboratório da Huawei emitiu uma negação da empresa, afirmando que seu modelo foi”… não baseado no treinamento incremental dos modelos de outros fabricantes…”e desenvolvido de forma independente. Esse impulso é alimentado por pressões geopolíticas mais amplas, pois as sanções dos EUA limitam o acesso ao hardware de primeira linha e forçam as empresas chinesas a construir ecossistemas autônomos.

Essas pressões se estendem além do hardware. As principais parcerias enfrentam o escrutínio internacional, como visto quando o potencial de IA da Apple lida com o Alibaba desenhou reação em Washington sobre preocupações com a segurança nacional. Isso força os gigantes da tecnologia chinesa a navegar em um cenário complexo da concorrência doméstica e da política global.