A Microsoft Research revelou o Fara-7B, um modelo compacto de IA de 7 bilhões de parâmetros projetado para executar agentes de “uso de computador” diretamente em dispositivos locais.

Ao processar os pixels da tela inteiramente no dispositivo, o novo modelo visa estabelecer a “soberania dos pixels”, permitindo que as empresas automatizem fluxos de trabalho confidenciais sem expor dados à nuvem.

Lançado hoje sob uma licença do MIT, o Fara-7B supostamente supera grandes rivais baseados em nuvem, como GPT-4o da OpenAI nos principais benchmarks de navegação e, ao mesmo tempo, reduz os custos de inferência em mais de 90%.

Soberania de pixels: a mudança para agentes locais

Rompendo com a tendência do setor de processamento centralizado, o lançamento do Fara-7B pela Microsoft Research marca um pivô estratégico da IA dependente da nuvem para o que eles chamam de “soberania de pixels”, garantindo que dados confidenciais nunca saiam do dispositivo do usuário.

Nos bastidores, a arquitetura depende do modelo básico Qwen2.5-VL-7B do Alibaba, processando dados visuais diretamente de capturas de tela, em vez de depender de árvores de acessibilidade ou estruturas de código subjacentes.

Adotando uma estratégia de “visão em primeiro lugar”, o agente interage com qualquer interface de aplicativo como um ser humano faria, ignorando a necessidade de integrações de API personalizadas.

A execução local aborda preocupações empresariais críticas em relação à privacidade de dados, especialmente para setores regulamentados que lidam com dados financeiros ou de saúde. Ao manter todas as inferências na máquina local, as organizações podem implantar agentes autônomos sem expor fluxos de trabalho proprietários ou informações de clientes a servidores de terceiros. A Microsoft diz:

“O tamanho pequeno do Fara-7B agora torna possível executar modelos CUA diretamente nos dispositivos. Isso resulta em latência reduzida e maior privacidade, já que os dados do usuário permanecem locais.”

Ao remover a latência das solicitações de ida e volta na nuvem, os agentes no dispositivo podem reagir mais rapidamente às mudanças na interface do usuário, criando uma experiência de usuário mais tranquila. Essa agilidade é fundamental para fluxos de trabalho complexos e de várias etapas, onde os atrasos podem resultar em perdas significativas de produtividade. De acordo com a Microsoft:

“Um agente somente pixel pode funcionar em muitos aplicativos sem alinhamento ou integração, o que é uma grande vantagem. Mas se a UI mudar, o agente pode ter dificuldades. Ele é poderoso, mas também frágil.”

Otimizada para hardware de consumo, a arquitetura compacta de 7 bilhões de parâmetros tem como alvo os recursos de NPU dos PCs Copilot+. Acessíveis sem infraestrutura cara, esses recursos garantem que recursos de agência avançados permaneçam ao alcance de implantações empresariais padrão.

Eficiência e benchmarks: o custo da autonomia

Em um desafio direto aos gigantes proprietários, o Fara-7B alcança uma taxa de sucesso de 73,5% no benchmark WebVoyager, superando a pontuação de 65,1% do GPT-4o (SoM) da OpenAI. Esses resultados sugerem que modelos menores e especializados podem superar modelos maiores e de uso geral em tarefas específicas.

De acordo com a documentação técnica, Fara-7B funciona como um modelo somente decodificador multimodal construído sobre a arquitetura Qwen2.5-VL-7B do Alibaba. O sistema processa objetivos do usuário, capturas de tela do navegador e histórico de ações em uma janela de contexto de 128.000 tokens.

Os agentes locais de IA acabaram de atingir um grande ponto de inflexão. 🚨

A Microsoft abandonou o Fara-7B e está superando o GPT-4o na navegação na web enquanto é executado inteiramente localmente.

A tecnologia é inteligente: em vez de extrair código (DOM) como os scripts antigos, ela usa reconhecimento visual para “ver” sua tela… pic.twitter.com/UEzYkTTcop

— Yi (@imhaoyi) 25 de novembro, 2025

A Microsoft Research especifica que o conjunto de ferramentas do modelo se alinha com a interface Magentic-UI, permitindo ações como digitar, clicar e rolar, enquanto prevê coordenadas diretamente como posições de pixels na tela.

Testes independentes da Browserbase validam o status de “estado da arte” do modelo para sua classe de tamanho, embora tenha relatado uma taxa de sucesso ligeiramente inferior de 62% em condições do mundo real. Apesar dessa variação, o modelo permanece altamente competitivo, oferecendo uma alternativa viável para soluções que consomem mais recursos.

A eficiência de custos é um grande diferencial, com a Microsoft estimando um custo médio de US$ 0,025 por tarefa, em comparação com aproximadamente US$ 0,30 para modelos como GPT-5 ou o3. Reduzindo a barreira de entrada, essa estrutura de custos poderia acelerar significativamente a implantação generalizada de agentes.

Conforme detalhado no anúncio oficial:

“No WebVoyager, o Fara-7B usa em média 124.000 tokens de entrada e 1.100 tokens de saída por tarefa, com cerca de 16,5 ações. Usando preços de tokens de mercado, a equipe de pesquisa estima um custo médio de 0,025 dólares por tarefa, contra cerca de 0,30 dólares para agentes SoM apoiados por modelos de raciocínio proprietários, como GPT-5 e o3.”

Os benchmarks de velocidade mostram vantagens significativas, com o modelo concluindo tarefas em aproximadamente 154 segundos. versus 254 segundos para o modelo concorrente UI-TARS-1.5-7B, de acordo com o Browserbase.

Combinada com baixos custos operacionais, a execução rápida torna o Fara-7B uma opção atraente para tarefas de automação de alto volume.

Apesar de seu tamanho pequeno, o Fara-7B mantém uma janela de contexto substancial de 128.000 tokens, permitindo reter o histórico em fluxos de trabalho longos e de várias etapas, conforme observado em o anúncio oficial.

“No futuro, nos esforçaremos para manter o tamanho pequeno de nossos modelos. Nossa pesquisa contínua está focada em tornar os modelos de agente mais inteligentes e seguros, e não apenas maiores”, afirma a Microsoft.

A empresa reconhece o modelo é experimental, apontando para limitações:

“Você pode experimentar e prototipar livremente o Fara‑7B sob a licença do MIT, mas é mais adequado para pilotos e provas de conceito, em vez de implantações de missão crítica.”

O Ecossistema Agente: Segurança e Competição

Para treinar o modelo sem anotações humanas dispendiosas, a Microsoft desenvolveu o “FaraGen”, um pipeline de dados sintéticos que gerou mais de 145.000 trajetórias de tarefas verificadas.

Ampliando rapidamente os dados de treinamento, esse método resolve um gargalo importante no desenvolvimento do agente.

A segurança é reforçada por meio de um mecanismo de “Ponto Crítico”, que pausa o agente e exige a aprovação do usuário antes de ações irreversíveis, como compras ou envio de e-mails. De acordo com o repositório do modelo:

“Um ponto crítico é definido como qualquer situação que requer os dados pessoais ou o consentimento de um usuário antes que uma ação irreversível ocorra, como enviar um e-mail ou concluir uma transação financeira. Ao chegar a tal momento, o Fara-7B foi projetado para pausar e solicitar explicitamente a aprovação do usuário antes de prosseguir.”[…] “Essa abordagem ajuda as organizações a atender a requisitos rígidos em setores regulamentados, incluindo HIPAA e GLBA.”

Intensificando a corrida armamentista da”IA agentic”, o lançamento compete diretamente com o recurso Computer Use da Anthropic, o lançamento do ChatGPT Agent da OpenAI e a visualização Gemini 2.5 Computer Use do Google.

Enquanto os rivais se concentram em soluções baseadas em nuvem, Fara-7B deixa uma lacuna para soluções locais focadas na privacidade alternativas.

Ao contrário dos concorrentes que muitas vezes exigem conectividade em nuvem, a natureza aberta do Fara-7B permite que os desenvolvedores ajustem e implantem o modelo em ambientes totalmente isolados. 

A Microsoft lançou o modelo sob a licença permissiva do MIT no Hugging Face e no Azure Foundry, incentivando a ampla adoção e iteração pela comunidade. Em contraste com os ecossistemas fechados dos seus principais rivais, esta abordagem aberta acelera potencialmente a inovação no espaço do agente local.

Categories: IT Info