Microsoft Research hat Fara-7B vorgestellt, ein kompaktes KI-Modell mit 7 Milliarden Parametern, das darauf ausgelegt ist, „Computernutzungs“-Agenten direkt auf lokalen Geräten auszuführen.

Durch die Verarbeitung von Bildschirmpixeln vollständig auf dem Gerät zielt das neue Modell darauf ab, „Pixelsouveränität“ zu schaffen und es Unternehmen zu ermöglichen, sensible Arbeitsabläufe zu automatisieren, ohne Daten der Cloud auszusetzen.

Fara-7B wurde heute unter einer MIT-Lizenz veröffentlicht und übertrifft Berichten zufolge massive cloudbasierte Konkurrenten wie GPT-4o von OpenAI erfüllt wichtige Navigations-Benchmarks und senkt gleichzeitig die Inferenzkosten um über 90 %.

Pixel-Souveränität: Der Wandel zu lokalen Agenten

Die Veröffentlichung von Fara-7B durch Microsoft Research bricht mit dem Branchentrend der zentralisierten Verarbeitung und markiert einen strategischen Wendepunkt von der Cloud-abhängigen KI hin zu dem, was sie „Pixel-Souveränität“ nennen, um sicherzustellen, dass sensible Daten niemals das Gerät des Benutzers verlassen.

Unter der Haube basiert die Architektur auf Alibabas Qwen2.5-VL-7B-Basismodell. Er verarbeitet visuelle Daten direkt aus Screenshots, anstatt sich auf Barrierefreiheitsbäume oder zugrunde liegende Codestrukturen zu verlassen.

Durch die Anwendung einer „Vision-First“-Strategie interagiert der Agent mit jeder Anwendungsschnittstelle wie ein Mensch, ohne dass benutzerdefinierte API-Integrationen erforderlich sind.

Die lokale Ausführung geht auf kritische Unternehmensbedenken in Bezug auf den Datenschutz ein, insbesondere für regulierte Branchen, die Finanz-oder Gesundheitsdaten verarbeiten. Indem alle Rückschlüsse auf dem lokalen Computer gehalten werden, können Unternehmen autonome Agenten bereitstellen, ohne proprietäre Arbeitsabläufe oder Kundeninformationen den Servern von Drittanbietern preiszugeben. Microsoft sagt:

„Die geringe Größe von Fara-7B ermöglicht es jetzt, CUA-Modelle direkt auf Geräten auszuführen. Dies führt zu reduzierter Latenz und verbessertem Datenschutz, da Benutzerdaten lokal bleiben.“

Durch die Beseitigung der Latenz von Round-Trip-Cloud-Anfragen können Agenten auf dem Gerät schneller auf Änderungen der Benutzeroberfläche reagieren, was zu einer reibungsloseren Benutzererfahrung führt. Diese Agilität erweist sich als entscheidend für komplexe, mehrstufige Arbeitsabläufe, bei denen Verzögerungen zu erheblichen Produktivitätsverlusten führen können. Laut Microsoft:

„Ein Nur-Pixel-Agent kann in vielen Anwendungen ohne Ausrichtung oder Integration arbeiten, was ein großer Vorteil ist. Aber wenn sich die Benutzeroberfläche ändert, kann der Agent Schwierigkeiten haben. Er ist leistungsstark, aber auch anfällig.“

Die kompakte 7-Milliarden-Parameter-Architektur ist für Verbraucherhardware optimiert und zielt auf die NPU-Funktionen von Copilot+-PCs ab. Diese Funktionen sind ohne teure Infrastruktur zugänglich und stellen sicher, dass erweiterte Agentenfunktionen für standardmäßige Unternehmensbereitstellungen erreichbar bleiben.

Effizienz und Benchmarks: Die Kosten der Autonomie

In einer direkten Herausforderung für proprietäre Giganten erreicht Fara-7B eine Erfolgsquote von 73,5 % beim WebVoyager-Benchmark und übertrifft damit den 65,1 %-Score von OpenAIs GPT-4o (SoM). Solche Ergebnisse deuten darauf hin, dass kleinere, spezialisierte Modelle größere Allzweckmodelle bei bestimmten Aufgaben übertreffen können.

Der technischen Dokumentation zufolge fungiert Fara-7B als rein multimodales Decoder-Modell, das auf der Qwen2.5-VL-7B-Architektur von Alibaba basiert. Das System verarbeitet Benutzerziele, Browser-Screenshots und Aktionsverlauf in einem Kontextfenster mit 128.000 Token.

Lokale KI-Agenten haben gerade einen gewaltigen Wendepunkt erreicht. 🚨

Microsoft hat Fara-7B fallen gelassen und schlägt GPT-4o bei der Webnavigation, während es vollständig lokal läuft.

Die Technologie ist clever: Anstatt Code (DOM) wie altmodische Skripte zu kratzen, nutzt es visuelle Erkennung, um Ihren Bildschirm zu „sehen“ … pic.twitter.com/UEzYkTTcop

-Yi (@imhaoyi) 25. November 2025

Microsoft Research gibt an, dass das Toolset des Modells an der Magentic-UI-Schnittstelle ausgerichtet ist und Aktionen wie Tippen, Klicken und Scrollen ermöglicht, während Koordinaten direkt als Pixelpositionen auf dem Bildschirm vorhergesagt werden.

Unabhängige Tests von Browserbase bestätigen den „State-of-the-Art“-Status des Modells für seine Größenklasse, meldeten jedoch eine etwas geringere Erfolgsquote von 62 % unter realen Bedingungen. Trotz dieser Unterschiede bleibt das Modell äußerst wettbewerbsfähig und bietet eine praktikable Alternative zu ressourcenintensiveren Lösungen.

Kosteneffizienz ist ein wesentliches Unterscheidungsmerkmal: Microsoft schätzt die durchschnittlichen Kosten auf 0,025 US-Dollar pro Aufgabe im Vergleich zu etwa 0,30 US-Dollar für Modelle wie GPT-5 oder o3. Durch die Senkung der Eintrittsbarriere könnte diese Kostenstruktur den weit verbreiteten Einsatz von Agenten erheblich beschleunigen.

Wie in der offiziellen Ankündigung beschrieben:

„Auf WebVoyager verbraucht Fara-7B durchschnittlich 124.000 Eingabe-Tokens und 1.100 Ausgabe-Tokens pro Aufgabe, mit etwa 16,5 Aktionen. Unter Verwendung der Markt-Token-Preise schätzt das Forschungsteam die durchschnittlichen Kosten auf 0,025 Dollar pro Aufgabe, im Vergleich zu etwa 0,30 Dollar für SoM-Agenten, die durch proprietäre Argumentationsmodelle wie GPT-5 und o3 unterstützt werden das konkurrierende UI-TARS-1.5-7B-Modell, laut Browserbase.

Kombiniert mit niedrigen Betriebskosten macht die schnelle Ausführung Fara-7B zu einer attraktiven Option für großvolumige Automatisierungsaufgaben.

Trotz seiner geringen Größe behält Fara-7B ein beachtliches Kontextfenster mit 128.000 Token bei und ermöglicht es ihm, den Verlauf über lange, mehrstufige Arbeitsabläufe hinweg beizubehalten, wie in die offizielle Ankündigung.

„In Zukunft werden wir uns bemühen, die kleine Größe unserer Modelle beizubehalten. Unsere laufende Forschung konzentriert sich darauf, Agentenmodelle intelligenter und sicherer und nicht nur größer zu machen“, sagt Microsoft.

Das Unternehmen erkennt dies an Das Modell ist experimentell und weist auf Einschränkungen hin:

„Sie können mit Fara-7B unter der MIT-Lizenz frei experimentieren und Prototypen erstellen, aber es eignet sich am besten für Piloten und Konzeptnachweise und nicht für geschäftskritische Einsätze.“

Das Agenten-Ökosystem: Sicherheit und Wettbewerb

Um das Modell ohne teure menschliche Anmerkungen zu trainieren, hat Microsoft „FaraGen“ entwickelt, eine Pipeline für synthetische Daten, die über generiert wurde 145.000 verifizierte Aufgabenverläufe.

Durch die schnelle Skalierung von Trainingsdaten behebt diese Methode einen wichtigen Engpass in der Agentenentwicklung.

Die Sicherheit wird durch einen „Critical Point“-Mechanismus gewährleistet, der den Agenten pausiert und vor irreversiblen Aktionen wie Käufen oder dem Versenden von E-Mails die Zustimmung des Benutzers einfordert. Laut dem Modellrepository:

„Ein kritischer Punkt ist definiert als jede Situation, die die persönlichen Daten oder die Zustimmung eines Benutzers erfordert, bevor eine unumkehrbare Aktion eintritt, wie z. B. das Senden einer E-Mail oder der Abschluss einer Finanztransaktion. Bei Erreichen eines solchen Punktes ist Fara-7B so konzipiert, dass es innehält und explizit die Zustimmung des Benutzers anfordert, bevor es fortfährt.“ […] „Dieser Ansatz hilft Unternehmen, strenge Anforderungen in regulierten Sektoren zu erfüllen, einschließlich HIPAA und GLBA.“

Die Veröffentlichung intensiviert das Wettrüsten um „agentische KI“ und konkurriert direkt mit der Computernutzungsfunktion von Anthropic, der Einführung des ChatGPT-Agenten von OpenAI und der Gemini 2.5-Computernutzungsvorschau von Google.

Während sich die Konkurrenten auf cloudbasierte Lösungen konzentrieren, lässt Fara-7B eine Lücke für lokale, datenschutzorientierte Lösungen Alternativen.

Im Gegensatz zu Wettbewerbern, die oft eine Cloud-Konnektivität benötigen, ermöglicht die offene Bauweise von Fara-7B Entwicklern die Feinabstimmung und den Einsatz des Modells in Umgebungen mit vollständiger Luftspalte. 

Microsoft hat das Modell unter der freizügigen MIT-Lizenz auf Hugging Face und Azure Foundry veröffentlicht und damit eine breite Akzeptanz und Iteration in der Community gefördert. Im Gegensatz zu den geschlossenen Ökosystemen seiner Hauptkonkurrenten beschleunigt dieser offene Ansatz potenziell die Innovation im Bereich der lokalen Agenten.

Categories: IT Info