Microsoft Research heeft Fara-7B onthuld, een compact AI-model met 7 miljard parameters dat is ontworpen om’computergebruik’-agents rechtstreeks op lokale apparaten uit te voeren.
Door schermpixels volledig op het apparaat te verwerken, heeft het nieuwe model tot doel’pixelsoevereiniteit’te vestigen, waardoor bedrijven gevoelige workflows kunnen automatiseren zonder gegevens aan de cloud bloot te stellen.
Fara-7B, dat vandaag is uitgebracht onder een MIT-licentie, presteert naar verluidt beter dan enorme cloudgebaseerde rivalen zoals OpenAI’s GPT-4o voor belangrijke navigatiebenchmarks, terwijl de inferentiekosten met meer dan 90% worden verlaagd.
Pixelsoevereiniteit: de verschuiving naar lokale agenten
De release van Fara-7B door Microsoft Research, die breekt met de industriële trend van gecentraliseerde verwerking, markeert een strategische draai van cloud-afhankelijke AI naar wat zij’pixelsoevereiniteit’noemen, waardoor gevoelige gegevens het apparaat van de gebruiker nooit verlaten.
Onder de motorkap vertrouwt de architectuur op Alibaba’s Qwen2.5-VL-7B-basismodel, dat visuele gegevens verwerkt. rechtstreeks vanuit schermafbeeldingen in plaats van te vertrouwen op toegankelijkheidsbomen of onderliggende codestructuren.
Door een’vision-first’-strategie toe te passen, communiceert de agent met elke applicatie-interface net zoals een mens dat zou doen, waarbij de noodzaak voor aangepaste API-integraties wordt omzeild.
Lokale uitvoering pakt kritische bedrijfsproblemen aan met betrekking tot gegevensprivacy, met name voor gereguleerde sectoren die financiële of gezondheidszorggegevens verwerken. Door alle gevolgtrekkingen op de lokale machine te houden, kunnen organisaties autonome agenten inzetten zonder eigen workflows of klantinformatie bloot te stellen aan servers van derden. Microsoft zegt:
“De kleine omvang van Fara-7B maakt het nu mogelijk om CUA-modellen rechtstreeks op apparaten uit te voeren. Dit resulteert in verminderde latentie en verbeterde privacy, omdat gebruikersgegevens lokaal blijven.”
Door de latentie van round-trip cloud-verzoeken te verwijderen, kunnen agenten op het apparaat sneller reageren op UI-wijzigingen, waardoor een soepelere gebruikerservaring ontstaat. Een dergelijke flexibiliteit blijkt van cruciaal belang voor complexe workflows die uit meerdere stappen bestaan, waarbij vertragingen kunnen leiden tot aanzienlijke productiviteitsverliezen. Volgens Microsoft:
“Een agent met alleen pixels kan in veel applicaties werken zonder uitlijning of integratie, wat een groot voordeel is. Maar als de gebruikersinterface verandert, heeft de agent misschien moeite. Hij is krachtig, maar ook kwetsbaar.”
De compacte architectuur met 7 miljard parameters is geoptimaliseerd voor consumentenhardware en richt zich op de NPU-mogelijkheden van Copilot+ pc’s. Deze mogelijkheden zijn toegankelijk zonder dure infrastructuur en zorgen ervoor dat geavanceerde agentische functies binnen bereik blijven voor standaard bedrijfsimplementaties.
Efficiëntie en benchmarks: de kosten van autonomie
In een directe uitdaging voor propriëtaire giganten behaalt Fara-7B een succespercentage van 73,5% op de WebVoyager-benchmark, waarmee hij de score van 65,1% van OpenAI’s GPT-4o (SoM) overtreft. Dergelijke resultaten suggereren dat kleinere, gespecialiseerde modellen beter kunnen presteren dan grotere modellen voor algemene doeleinden bij specifieke taken.
Volgens de technische documentatie functioneert Fara-7B als een multimodaal decodermodel, gebouwd op Alibaba’s Qwen2.5-VL-7B-architectuur. Het systeem verwerkt gebruikersdoelen, browserscreenshots en actiegeschiedenis binnen een contextvenster van 128.000 tokens.
Lokale AI-agenten hebben zojuist een enorm keerpunt bereikt. 🚨
Microsoft heeft Fara-7B laten vallen, en het verslaat GPT-4o op het gebied van webnavigatie terwijl het volledig lokaal draait.
De technologie is slim: in plaats van code (DOM) te schrapen zoals ouderwetse scripts, gebruikt het visuele herkenning om je scherm te”zien”… pic.twitter.com/UEzYkTTcop
— Yi (@imhaoyi) 25 november 2025
Microsoft Research specificeert dat de toolset van het model aansluit bij de Magentic-UI-interface, waardoor acties mogelijk zijn zoals typen, klikken en scrollen, terwijl coördinaten rechtstreeks worden voorspeld als pixelposities op het scherm.
Onafhankelijk testen door Browserbase valideert de prestaties van het model “state-of-the-art”-status voor zijn grootteklasse, hoewel het onder reële omstandigheden een iets lager succespercentage rapporteerde van 62%. Ondanks deze variantie blijft het model zeer concurrerend en biedt het een levensvatbaar alternatief voor meer resource-intensieve oplossingen.
Kostenefficiëntie is een belangrijke onderscheidende factor, waarbij Microsoft de gemiddelde kosten schat van $0,025 per taak, vergeleken met ~$0,30 voor modellen als GPT-5 of o3. Door de toetredingsdrempel te verlagen, zou deze kostenstructuur de wijdverbreide inzet van agenten aanzienlijk kunnen versnellen.
Zoals beschreven in de officiële aankondiging:
“Op WebVoyager gebruikt Fara-7B gemiddeld 124.000 invoertokens en 1.100 outputtokens per taak, met ongeveer 16,5 acties. Op basis van markttokenprijzen schat het onderzoeksteam de gemiddelde kosten van 0,025 dollar per taak, tegenover ongeveer 0,30 dollar voor SoM-agenten ondersteund door bedrijfseigen redeneermodellen zoals GPT-5 en o3.”
Snelheidsbenchmarks laten aanzienlijke voordelen zien, waarbij het model taken voltooit in ongeveer 154 seconden versus 254 seconden voor de concurrentie. UI-TARS-1.5-7B-model, volgens Browserbase.
Gecombineerd met lage operationele kosten, maakt de snelle uitvoering Fara-7B een aantrekkelijke optie voor automatiseringstaken met een hoog volume.
Ondanks zijn kleine formaat onderhoudt Fara-7B een substantieel contextvenster van 128.000 token, waardoor het de geschiedenis kan behouden over lange, uit meerdere stappen bestaande workflows, zoals opgemerkt in de officiële aankondiging.
“In de toekomst zullen we ernaar streven de kleine omvang van onze modellen te behouden. Ons voortdurende onderzoek is gericht op het slimmer en veiliger maken van agentische modellen, niet alleen maar groter”, zegt Microsoft.
Het bedrijf erkent dat het model experimenteel is, wijzend op beperkingen:
“Je kunt vrijelijk experimenteren en prototypen met Fara-7B onder de MIT-licentie, maar het is het meest geschikt voor pilots en proofs-of-concept in plaats van missiekritische implementaties.”
Het Agentic Ecosystem: veiligheid en concurrentie
Om het model te trainen zonder dure menselijke annotaties, ontwikkelde Microsoft’FaraGen’, een synthetische datapijplijn die meer dan 145.000 geverifieerde gegevens genereerde Deze methode breidt trainingsgegevens snel uit en pakt een belangrijk knelpunt in de ontwikkeling van agenten aan.
De veiligheid wordt afgedwongen via een’Critical Point’-mechanisme, dat de agent pauzeert en goedkeuring van de gebruiker vereist vóór onomkeerbare acties zoals aankopen of het verzenden van e-mails. Volgens de modelrepository:
“Een kritiek punt wordt gedefinieerd als elke situatie waarbij de persoonlijke gegevens of toestemming van een gebruiker vereist zijn voordat er een onomkeerbare actie plaatsvindt, zoals het verzenden van een e-mail of het voltooien van een financiële transactie. Bij het bereiken van een dergelijk moment is Fara-7B ontworpen om te pauzeren en expliciet toestemming van de gebruiker te vragen voordat hij verdergaat.”[…] “Deze aanpak helpt organisaties te voldoen aan strenge eisen in gereguleerde sectoren, waaronder HIPAA en GLBA.”
De release intensiveert de ‘agentische AI’-wapenwedloop en concurreert rechtstreeks met de Computer Use-functie van Anthropic, de ChatGPT Agent-lancering van OpenAI en de Gemini 2.5 Computer Use-preview van Google.
Terwijl de rivalen zich richten op cloudgebaseerde oplossingen, laat Fara-7B een gat open voor lokale, op privacy gerichte oplossingen. alternatieven.
In tegenstelling tot concurrenten die vaak cloudconnectiviteit nodig hebben, stelt het open karakter van Fara-7B ontwikkelaars in staat het model te verfijnen en in te zetten in volledig air-gapped omgevingen.
Microsoft heeft het model vrijgegeven onder de tolerante MIT-licentie op Hugging Face en Azure Foundry, waardoor acceptatie en iteratie door de brede gemeenschap wordt aangemoedigd. In tegenstelling tot de gesloten ecosystemen van zijn belangrijkste rivalen, versnelt deze open benadering potentieel de innovatie in de lokale agentenruimte.