Microsoft Research ha presentado Fara-7B, un modelo compacto de IA con 7 mil millones de parámetros diseñado para ejecutar agentes de”uso informático”directamente en dispositivos locales.
Al procesar los píxeles de la pantalla completamente en el dispositivo, el nuevo modelo pretende establecer una”soberanía de píxeles”, permitiendo a las empresas automatizar flujos de trabajo confidenciales sin exponer los datos a la nube.
Lanzado hoy bajo una licencia del MIT, Fara-7B supuestamente supera a los sistemas masivos basados en la nube. rivales como GPT-4o de OpenAI en puntos de referencia de navegación clave y al mismo tiempo reducen los costos de inferencia en más del 90 %.
Soberanía de píxeles: el cambio a agentes locales
Rompiendo con la tendencia de la industria de procesamiento centralizado, el lanzamiento de Fara-7B por parte de Microsoft Research marca un giro estratégico desde la IA dependiente de la nube hacia lo que llaman”soberanía de píxeles”, asegurando que los datos confidenciales nunca abandonen el dispositivo del usuario.
Bajo el capó, la arquitectura se basa en el modelo base Qwen2.5-VL-7B de Alibaba, que procesa visualmente datos directamente desde capturas de pantalla en lugar de depender de árboles de accesibilidad o estructuras de código subyacentes.
Al adoptar una estrategia de”visión primero”, el agente interactúa con cualquier interfaz de aplicación tal como lo haría un humano, evitando la necesidad de integraciones API personalizadas.
La ejecución local aborda preocupaciones empresariales críticas con respecto a la privacidad de los datos, particularmente para las industrias reguladas que manejan datos financieros o de atención médica. Al mantener toda la inferencia en la máquina local, las organizaciones pueden implementar agentes autónomos sin exponer flujos de trabajo propietarios o información del cliente a servidores de terceros. Microsoft dice:
“El pequeño tamaño de Fara-7B ahora permite ejecutar modelos CUA directamente en los dispositivos. Esto da como resultado una latencia reducida y una privacidad mejorada, ya que los datos del usuario permanecen locales”.
Al eliminar la latencia de las solicitudes de ida y vuelta en la nube, los agentes en el dispositivo pueden reaccionar más rápido a los cambios de la interfaz de usuario, creando una experiencia de usuario más fluida. Esta agilidad resulta fundamental para flujos de trabajo complejos de varios pasos donde los retrasos pueden provocar pérdidas de productividad significativas. Según Microsoft:
“Un agente de solo píxeles puede funcionar en muchas aplicaciones sin alineación ni integración, lo cual es una gran ventaja. Pero si la interfaz de usuario cambia, el agente puede tener dificultades. Es poderoso, pero también frágil”.
Optimizada para hardware de consumo, la arquitectura compacta de 7 mil millones de parámetros apunta a las capacidades NPU de las PC Copilot+. Accesibles sin una infraestructura costosa, estas capacidades garantizan que las funciones agentes avanzadas permanezcan al alcance de las implementaciones empresariales estándar.
Eficiencia y puntos de referencia: el costo de la autonomía
En un desafío directo a los gigantes propietarios, Fara-7B logra una tasa de éxito del 73,5 % en el punto de referencia WebVoyager, superando el puntaje del 65,1 % del GPT-4o (SoM) de OpenAI. Estos resultados sugieren que los modelos más pequeños y especializados pueden superar a los modelos más grandes y de uso general en tareas específicas.
Según la documentación técnica, Fara-7B funciona como un modelo multimodal de decodificador exclusivo construido sobre la arquitectura Qwen2.5-VL-7B de Alibaba. El sistema procesa los objetivos del usuario, las capturas de pantalla del navegador y el historial de acciones dentro de una ventana contextual de 128.000 tokens.
Los agentes locales de IA acaban de llegar a un enorme punto de inflexión. 🚨
Microsoft abandonó Fara-7B y está superando a GPT-4o en navegación web mientras se ejecuta completamente localmente.
La tecnología es inteligente: en lugar de raspar código (DOM) como los scripts de la vieja escuela, utiliza reconocimiento visual para”ver”su pantalla… pic.twitter.com/UEzYkTTcop
— Yi (@imhaoyi) 25 de noviembre de 2025
Microsoft Research especifica que el conjunto de herramientas del modelo se alinea con la interfaz Magentic-UI, lo que permite acciones como escribir, hacer clic y desplazarse, mientras predice coordenadas directamente como posiciones de píxeles en la pantalla.
Pruebas independientes realizadas por Browserbase validan el estado de”vanguardia”del modelo para su clase de tamaño, aunque informó una tasa de éxito ligeramente inferior del 62% en condiciones del mundo real. A pesar de esta variación, el modelo sigue siendo altamente competitivo y ofrece una alternativa viable a soluciones que consumen más recursos.
La eficiencia de costos es un diferenciador importante: Microsoft estima un costo promedio de $0,025 por tarea en comparación con ~$0,30 para modelos como GPT-5 u o3. Al reducir la barrera de entrada, esta estructura de costos podría acelerar significativamente la implementación generalizada de agentes.
Como se detalla en el anuncio oficial:
“En WebVoyager, Fara-7B utiliza en promedio 124.000 tokens de entrada y 1.100 tokens de salida por tarea, con aproximadamente 16,5 acciones. Utilizando los precios de los tokens de mercado, el equipo de investigación estima un costo promedio de 0,025 dólares por tarea, frente a alrededor de 0,30 dólares para los agentes SoM respaldados por modelos de razonamiento patentados como GPT-5 y o3.
Los puntos de referencia de velocidad muestran ventajas significativas, ya que el modelo completa las tareas en aproximadamente 154 segundos frente a. 254 segundos para el modelo UI-TARS-1.5-7B de la competencia, según Browserbase.
Combinado con bajos costos operativos, la rápida ejecución hace de Fara-7B una opción atractiva para tareas de automatización de gran volumen.
A pesar de su pequeño tamaño, Fara-7B mantiene una importante ventana de contexto de 128 000 tokens, lo que le permite retener el historial en largos flujos de trabajo de varios pasos, como se indica en el anuncio oficial.
“En el futuro, nos esforzaremos por mantener el tamaño pequeño de nuestros modelos. Nuestra investigación en curso se centra en hacer que los modelos agentic sean más inteligentes y seguros, no solo más grandes”, afirma Microsoft.
La empresa reconoce que el modelo es experimental, señalando sus limitaciones:
“Puedes experimentar y crear prototipos libremente con Fara‑7B bajo la licencia del MIT, pero es más adecuado para pilotos y pruebas de concepto que para implementaciones de misión crítica”.
El ecosistema agente: seguridad y competencia
Para entrenar el modelo sin costosas anotaciones humanas, Microsoft desarrolló “FaraGen”, un canal de datos sintéticos que generó más de 145.000 trayectorias de tareas verificadas.
Este método, que escala rápidamente los datos de capacitación, aborda un cuello de botella clave en el desarrollo de agentes.
La seguridad se aplica a través de un mecanismo de”punto crítico”, que detiene al agente y exige la aprobación del usuario antes de acciones irreversibles como compras o envío de correos electrónicos. Según el repositorio de modelos:
“Un punto crítico se define como cualquier situación que requiere los datos personales o el consentimiento de un usuario antes de que ocurra una acción irreversible, como enviar un correo electrónico o completar una transacción financiera. Al llegar a tal coyuntura, Fara-7B está diseñado para hacer una pausa y solicitar explícitamente la aprobación del usuario antes de continuar”. […] “Este enfoque ayuda a las organizaciones a cumplir requisitos estrictos en sectores regulados, incluidos HIPAA y GLBA”.
Intensificando la carrera armamentista de la “IA agente”, el lanzamiento compite directamente con la función Computer Use de Anthropic, el lanzamiento del agente ChatGPT de OpenAI y la vista previa Gemini 2.5 Computer Use de Google.
Mientras que los rivales se centran en soluciones basadas en la nube, Fara-7B deja un vacío para las soluciones locales centradas en la privacidad alternativas.
A diferencia de los competidores que a menudo requieren conectividad en la nube, la naturaleza abierta de Fara-7B permite a los desarrolladores ajustar e implementar el modelo en entornos totalmente aislados.
Microsoft ha lanzado el modelo bajo la licencia permisiva MIT en Hugging Face y Azure Foundry, fomentando una amplia adopción e iteración por parte de la comunidad. En contraste con los ecosistemas cerrados de sus principales rivales, este enfoque abierto acelera potencialmente la innovación en el espacio de los agentes locales.