Microsoft Research a dévoilé Fara-7B, un modèle d’IA compact de 7 milliards de paramètres conçu pour exécuter des agents « utilisés sur ordinateur » directement sur les appareils locaux.
En traitant les pixels de l’écran entièrement sur l’appareil, le nouveau modèle vise à établir la « souveraineté des pixels », permettant aux entreprises d’automatiser les flux de travail sensibles sans exposer les données au cloud.
Lancé aujourd’hui sous licence MIT, le Fara-7B surpasserait ses énormes concurrents basés sur le cloud. comme GPT-4o d’OpenAI sur les principaux benchmarks de navigation tout en réduisant les coûts d’inférence de plus de 90 %.
Souveraineté des pixels : le passage aux agents locaux
Rapide avec la tendance du secteur du traitement centralisé, la sortie du Fara-7B par Microsoft Research marque un tournant stratégique de l’IA dépendante du cloud à ce qu’ils appellent la « souveraineté des pixels », garantissant que les données sensibles ne quittent jamais l’appareil de l’utilisateur.
Sous le capot, l’architecture s’appuie sur le modèle de base de traitement Qwen2.5-VL-7B d’Alibaba. données visuelles directement à partir de captures d’écran plutôt que de s’appuyer sur des arborescences d’accessibilité ou des structures de code sous-jacentes.
En adoptant une stratégie de « vision d’abord », l’agent interagit avec n’importe quelle interface d’application comme le ferait un humain, évitant ainsi le besoin d’intégrations d’API personnalisées.
L’exécution locale répond aux préoccupations critiques des entreprises concernant la confidentialité des données, en particulier pour les secteurs réglementés traitant des données financières ou de santé. En conservant toutes les inférences sur la machine locale, les organisations peuvent déployer des agents autonomes sans exposer les flux de travail propriétaires ou les informations client à des serveurs tiers. Selon Microsoft :
“La petite taille du Fara-7B permet désormais d’exécuter des modèles CUA directement sur les appareils. Cela se traduit par une latence réduite et une confidentialité améliorée, car les données utilisateur restent locales.”
En supprimant la latence des requêtes cloud aller-retour, les agents sur l’appareil peuvent réagir plus rapidement aux modifications de l’interface utilisateur, créant ainsi une expérience utilisateur plus fluide. Une telle agilité s’avère essentielle pour les flux de travail complexes en plusieurs étapes où les retards peuvent entraîner d’importantes pertes de productivité. Selon Microsoft :
“Un agent pixel uniquement peut fonctionner sur de nombreuses applications sans alignement ni intégration, ce qui constitue un gros avantage. Mais si l’interface utilisateur change, l’agent peut avoir des difficultés. Il est puissant, mais aussi fragile.”
Optimisée pour le matériel grand public, l’architecture compacte de 7 milliards de paramètres cible les capacités NPU des PC Copilot+. Accessibles sans infrastructure coûteuse, ces fonctionnalités garantissent que les fonctionnalités agentiques avancées restent à la portée des déploiements d’entreprise standard.
Efficacité et benchmarks : le coût de l’autonomie
Dans un défi direct aux géants propriétaires, Fara-7B atteint un taux de réussite de 73,5 % sur le benchmark WebVoyager, dépassant le score de 65,1 % du GPT-4o (SoM) d’OpenAI. De tels résultats suggèrent que les modèles plus petits et spécialisés peuvent surpasser les modèles plus grands à usage général sur des tâches spécifiques.
Selon la documentation technique, Fara-7B fonctionne comme un modèle multimodal de décodeur uniquement construit sur l’architecture Qwen2.5-VL-7B d’Alibaba. Le système traite les objectifs des utilisateurs, les captures d’écran du navigateur et l’historique des actions dans une fenêtre contextuelle de 128 000 jetons.
Les agents d’IA locaux viennent de franchir un tournant majeur. 🚨
Microsoft a abandonné Fara-7B et bat GPT-4o en matière de navigation Web tout en s’exécutant entièrement localement.
La technologie est intelligente : au lieu de gratter le code (DOM) comme les scripts à l’ancienne, elle utilise la reconnaissance visuelle pour « voir » votre écran… pic.twitter.com/UEzYkTTcop
— Yi (@imhaoyi) 25 novembre 2025
Microsoft Research précise que l’ensemble d’outils du modèle s’aligne sur l’interface Magentic-UI, permettant des actions telles que la saisie, le clic et le défilement, tout en prédisant les coordonnées directement sous forme de positions de pixels sur l’écran.
Les tests indépendants effectués par Browserbase valident le statut « de pointe » du modèle pour sa catégorie de taille, bien qu’il ait signalé un taux de réussite légèrement inférieur de 62 % dans des conditions réelles. Malgré cet écart, le modèle reste très compétitif, offrant une alternative viable aux solutions plus gourmandes en ressources.
La rentabilité est un différenciateur majeur, Microsoft estimant un coût moyen de 0,025 $ par tâche, contre environ 0,30 $ pour des modèles comme GPT-5 ou o3. En abaissant la barrière à l’entrée, cette structure de coûts pourrait considérablement accélérer le déploiement généralisé des agents.
Comme détaillé dans l’annonce officielle :
« Sur WebVoyager, Fara-7B utilise en moyenne 124 000 jetons d’entrée et 1 100 jetons de sortie par tâche, avec environ 16,5 actions. En utilisant les prix des jetons du marché, l’équipe de recherche estime un coût moyen de 0,025 dollars par tâche, contre environ 0,30 dollars pour les agents SoM soutenus par des modèles de raisonnement propriétaires tels que GPT-5 et o3. 254 secondes pour le modèle concurrent UI-TARS-1.5-7B, selon Browserbase.
Combinée à de faibles coûts opérationnels, l’exécution rapide fait de Fara-7B une option attrayante pour les tâches d’automatisation à grand volume.
Malgré sa petite taille, Fara-7B conserve une fenêtre contextuelle substantielle de 128 000 jetons, lui permettant de conserver l’historique sur de longs flux de travail en plusieurs étapes, comme indiqué dans l’annonce officielle.
“À l’avenir, nous nous efforcerons de maintenir la petite taille de nos modèles. Nos recherches en cours visent à rendre les modèles agentiques plus intelligents et plus sûrs, et pas seulement plus grands”, déclare Microsoft.
La société reconnaît le modèle est expérimental, ce qui souligne ses limites :
« Vous pouvez librement expérimenter et prototyper Fara‑7B sous la licence MIT, mais il est mieux adapté aux pilotes et aux preuves de concept plutôt qu’aux déploiements critiques. 145 000 trajectoires de tâches vérifiées.
En faisant évoluer rapidement les données de formation, cette méthode résout un goulot d’étranglement clé dans le développement des agents.
La sécurité est renforcée par un mécanisme de « point critique », qui met l’agent en pause et exige l’approbation de l’utilisateur avant des actions irréversibles comme des achats ou l’envoi d’e-mails. Selon le référentiel de modèles :
“Un point critique est défini comme toute situation nécessitant les données personnelles ou le consentement d’un utilisateur avant qu’une action irréversible ne se produise, comme l’envoi d’un e-mail ou la réalisation d’une transaction financière. Une fois ce stade atteint, Fara-7B est conçu pour faire une pause et demander explicitement l’approbation de l’utilisateur avant de continuer.”[…] « Cette approche aide les organisations à répondre à des exigences strictes dans les secteurs réglementés, notamment HIPAA et GLBA. alternatives.
Contrairement à ses concurrents qui nécessitent souvent une connectivité cloud, la nature ouverte du Fara-7B permet aux développeurs d’affiner et de déployer le modèle dans des environnements totalement isolés.
Microsoft a publié le modèle sous la licence permissive MIT sur Hugging Face et Azure Foundry, encourageant ainsi une large adoption et itération par la communauté. Contrairement aux écosystèmes fermés de ses principaux concurrents, cette approche ouverte accélère potentiellement l’innovation dans l’espace des agents locaux.