O Tongyi Lab do Alibaba revelou o AgentEvolver, uma nova estrutura que permite que os agentes de IA se treinem, com o objetivo de reduzir os altos custos e o esforço manual no desenvolvimento de IA.

O sistema usa três mecanismos principais para aprendizagem autônoma. O “autoquestionamento” permite que os agentes criem suas próprias tarefas de treinamento, a “autonavegação” reutiliza experiências passadas para orientar a exploração e a “autoatribuição” refina o aprendizado atribuindo crédito às ações corretas.

Essa abordagem torna o treinamento de IA mais eficiente e escalável. Nos primeiros benchmarks, o AgentEvolver permitiu que modelos de IA menores superassem os muito maiores, marcando um passo significativo em direção ao desenvolvimento de agentes economicamente sustentáveis.

Do trabalho manual à autoevolução: um novo paradigma de treinamento

Os métodos atuais para desenvolver agentes de IA capazes são notoriamente caros e lentos. Eles geralmente dependem de pipelines de aprendizagem por reforço (RL) que exigem vastos conjuntos de dados de tarefas criados manualmente e exploração aleatória e ineficiente.

O AgentEvolver enfrenta diretamente esses gargalos, transferindo a iniciativa de aprendizagem dos engenheiros humanos para a própria IA. A equipe de pesquisa coloca uma questão central em seu artigo: “por que não confiar ao próprio modelo maior autonomia na condução de seu próprio processo de aprendizagem?”

Em vez de esperar por conjuntos de dados criados por humanos, o mecanismo de “autoquestionamento” da estrutura capacita um agente a explorar um ambiente digital e gerar autonomamente suas próprias tarefas de treinamento.

Essa abordagem orientada pela curiosidade reduz a dependência de dados artesanais caros. Ele permite que o sistema descubra os limites funcionais de um ambiente e crie um currículo diversificado para si mesmo.

Estamos entusiasmados em lançar o AgentEvolver , um sistema de agente de código aberto e autoevolutivo do Tongyi Lab.
O AgentEvolver integra três mecanismos sinérgicos – Autoquestionamento , Autonavegação e Autoatribuição – para abordar sistematicamente gargalos críticos no Agent RL… pic.twitter.com/VnrE7ftyyu

– Tongyi Lab (@Ali_TongyiLab) 18 de novembro de 2025

Ao analisar seus próprios sucessos e fracassos, o componente de “autonavegação” melhora a eficiência da exploração. Ele destila trajetórias passadas em experiências reutilizáveis, orientando o agente em direção a estratégias mais eficazes em tarefas futuras.

Isso afasta o processo da tentativa e erro de força bruta em direção a um aprendizado mais direcionado e inteligente.

AgentEvolver em direção a um sistema de agente eficiente e autoevolutivo

 
Finalmente, a”autoatribuição”aumenta a eficiência da amostra ao atribuir recompensas refinadas. Os métodos tradicionais de RL geralmente creditam uma sequência inteira de ações com uma única pontuação de resultado. O sistema do AgentEvolver analisa a contribuição de cada etapa individual, permitindo atualizações de políticas mais precisas e eficazes.

Nos bastidores: como funcionam o autoquestionamento, a navegação e a atribuição

A estrutura AgentEvolver operacionaliza esses conceitos por meio de uma estrutura unificada, sistema ponta a ponta. O processo começa com o agente investigando um ambiente para compreender seu espaço de ação de estado. Em seguida, ele sintetiza tarefas alinhadas com preferências predefinidas, como dificuldade ou estilo, garantindo que o currículo gerado seja diversificado e relevante.

Para garantir a qualidade dessas tarefas autogeradas, o sistema inclui um pipeline de curadoria que filtra duplicatas e verifica se as soluções são executáveis.

Isso garante que o agente aprenda com exemplos viáveis ​​e valiosos. A estrutura foi projetada para ser modular, permitindo que os desenvolvedores a integrem a vários ambientes e infraestruturas de RL.

O desempenho em benchmarks difíceis do setor, como AppWorld e BFCL-v3, valida essa abordagem. O AgentEvolver aumentou a taxa média de conclusão de tarefas (avg@8) para o modelo Qwen2.5 do parâmetro 14B do Alibaba em notáveis ​​27,8% nesses testes.

No complexo benchmark AppWorld, a melhoria foi ainda mais forte, com um ganho de 30,7 pontos percentuais em relação à linha de base. Estes resultados mostram que modelos mais pequenos e mais eficientes podem alcançar um desempenho superior quando treinados com esta metodologia autoevolutiva.

Uma guerra em duas frentes contra os custos da IA: formação e inferência

Este foco na sustentabilidade económica é uma parte fundamental da estratégia da Alibaba. O lançamento do AgentEvolver, que visa custos de treinamento, segue de perto o recente lançamento do sistema Aegaeon pela empresa.

O Aegaeon foi projetado para reduzir os custos de inferência de IA – o preço da execução de modelos em produção – em até 82% por meio de agendamento inteligente de GPU.

Juntas, essas duas inovações representam um ataque abrangente às imensas despesas operacionais que atualmente limitam a adoção generalizada de IA. Embora o AgentEvolver torne mais barato construir agentes especializados, o Aegaeon torna mais barato implantá-los.

Essa estratégia dupla é crucial para tornar o amplo mercado de modelos de IA proprietários e de código aberto do Alibaba economicamente viável no longo prazo.

Uma nova corrida armamentista em agentes autônomos

O Alibaba não está sozinho na busca por uma IA de autoaperfeiçoamento. O artigo do AgentEvolver foi publicado no mesmo dia em que o Google DeepMind anunciou o SIMA 2, um agente de IA que pode aprender novas habilidades em videogames 3D complexos. Este desenvolvimento paralelo destaca um grande impulso em toda a indústria para a criação de agentes mais autônomos e generalistas que possam aprender com o mínimo de intervenção humana.

Enquanto o projeto do Google se concentra em mundos virtuais como um trampolim para a robótica do mundo real, o AgentEvolver do Alibaba é direcionado diretamente ao ecossistema de desenvolvedores para tarefas digitais. Ao fornecer uma estrutura que automatiza as partes mais trabalhosas do desenvolvimento de agentes, a Alibaba está se posicionando para capacitar uma nova geração de aplicações de IA.

Essa medida poderia democratizar o desenvolvimento de agentes e intensificar a concorrência com líderes ocidentais de IA, como OpenAI e Anthropic.

Ao lançar uma estrutura poderosa e aberta para a construção de agentes adaptativos e aumentados por ferramentas, a Alibaba está apostando que o caminho mais seguro para a inovação é fornecer aos desenvolvedores as ferramentas para permitir que a IA construa em si.

Categories: IT Info