微軟研究院推出了 Fara-7B,這是一個緊湊的 70 億參數人工智能模型,旨在直接在本地設備上運行“計算機使用”代理。
通過完全在設備上處理屏幕像素,新模型旨在建立“像素主權”,允許企業自動化敏感工作流程,而不將數據暴露到雲端。
據報導,Fara-7B 今天在 MIT 許可下發布,其性能優於 OpenAI 等基於雲的大型競爭對手在關鍵導航基准上採用 GPT-4o,同時將推理成本削減 90% 以上。
微軟研究院推出了 Fara-7B,這是一個緊湊的 70 億參數人工智能模型,旨在直接在本地設備上運行“計算機使用”代理。
通過完全在設備上處理屏幕像素,新模型旨在建立“像素主權”,允許企業自動化敏感工作流程,而不將數據暴露到雲端。
據報導,Fara-7B 今天在 MIT 許可下發布,其性能優於 OpenAI 等基於雲的大型競爭對手在關鍵導航基准上採用 GPT-4o,同時將推理成本削減 90% 以上。
在底層,該架構依賴於阿里巴巴的 Qwen2.5-VL-7B 基礎模型,直接處理視覺數據代理從屏幕截圖中獲取信息,而不是依賴可訪問性樹或底層代碼結構。
採用“視覺優先”策略,代理可以像人類一樣與任何應用程序界面進行交互,無需自定義 API 集成。
本地執行解決了企業對數據隱私的關鍵問題,特別是對於處理金融或醫療保健數據的受監管行業。通過將所有推理保留在本地計算機上,組織可以部署自主代理,而無需將專有工作流程或客戶信息暴露給第三方服務器。微軟表示,
“Fara-7B 的小尺寸現在可以直接在設備上運行 CUA 模型。這會減少延遲並提高隱私性,因為用戶數據保留在本地。”
通過消除往返雲請求的延遲,設備上的代理可以更快地對 UI 更改做出反應,從而創造更流暢的用戶體驗。事實證明,這種敏捷性對於復雜的多步驟工作流程至關重要,因為延遲可能會導致嚴重的生產力損失。微軟表示:
“純像素代理可以跨多個應用程序工作,無需對齊或集成,這是一個很大的優勢。但如果 UI 發生變化,代理可能會陷入困境。它很強大,但也很脆弱。”
針對消費類硬件進行了優化,緊湊的 70 億參數架構針對 Copilot+ PC 的 NPU 功能。這些功能無需昂貴的基礎設施即可訪問,確保標準企業部署仍可實現高級代理功能。
在對專有巨頭的直接挑戰中,Fara-7B 在 WebVoyager 基准上取得了 73.5% 的成功率,超過了 OpenAI 的 GPT-4o (SoM) 的 65.1% 分數。這些結果表明,在特定任務上,較小的專用模型可以勝過較大的通用模型。
根據技術文檔,Fara-7B 是基於阿里巴巴 Qwen2.5-VL-7B 架構構建的多模態解碼器模型。該系統在 128,000 個令牌上下文窗口中處理用戶目標、瀏覽器屏幕截圖和操作歷史記錄。
本地人工智能代理剛剛遇到了一個巨大的轉折點。 🚨
微軟放棄了 Fara-7B,它在完全本地運行的情況下在網絡導航方面擊敗了 GPT-4o。
該技術很聰明:它不像老式腳本那樣抓取代碼 (DOM),而是使用視覺識別來“查看”您的屏幕…… pic.twitter.com/UEzYkTTcop
— Yi (@imhaoyi) 11 月 25 日, 2025
微軟研究院指定模型的工具集與 Magentic-UI 界面保持一致,支持打字、單擊和滾動等操作,同時直接預測屏幕上像素位置的坐標。
獨立測試Browserbase 驗證了該模型在其尺寸類別中的“最先進”狀態,儘管它報告在現實條件下的成功率略低,為 62%。儘管存在這種差異,該模型仍然具有高度競爭力,為資源密集型解決方案提供了可行的替代方案。
成本效率是一個主要的差異化因素,Microsoft 估計每個任務的平均成本為 0.025 美元,而 GPT-5 或 o3 等模型的平均成本約為 0.30 美元。這種成本結構降低了進入門檻,可以顯著加速廣泛的代理部署。
正如官方公告中詳細介紹的:
“在 WebVoyager 上,Fara-7B 平均使用 124,000 個輸入令牌,並且每個任務 1,100 個輸出代幣,大約 16.5 個操作。根據市場代幣價格,研究團隊估計每個任務的平均成本為 0.025 美元,而由 GPT-5 和 o3 等專有推理模型支持的 SoM 代理的平均成本約為 0.30 美元。”
速度基準顯示出顯著的優勢,該模型在大約 154 秒內完成任務,而競爭對手為 254 秒。根據 Browserbase 的說法,UI-TARS-1.5-7B 模型。
結合較低的運營成本,快速執行使 Fara-7B 成為大批量自動化任務的有吸引力的選擇。
儘管規模較小,Fara-7B 仍保留了一個可容納 128,000 個令牌的上下文窗口,使其能夠保留跨長期、多步驟工作流程的歷史記錄,如 官方公告。
“展望未來,我們將努力保持模型的小尺寸。我們正在進行的研究重點是使代理模型更智能、更安全,而不僅僅是更大,”微軟表示。
該公司承認該模型是實驗性的,指出局限性:
“您可以在 MIT 許可下使用 Fara‑7B 自由進行實驗和原型設計,但它最適合試點和概念驗證,而不是關鍵任務部署。”
為了在無需昂貴的人工註釋的情況下訓練模型,微軟開發了“FaraGen”,這是一個合成數據管道,生成了超過 145,000 個經過驗證的數據
這種方法可以快速擴展訓練數據,解決了代理開發中的一個關鍵瓶頸。
安全性是通過“臨界點”機制來強制執行的,該機制會暫停代理並在進行購買或發送電子郵件等不可逆轉的操作之前要求用戶批准。 根據模型存儲庫:
“臨界點的定義是在發生不可逆轉的操作(例如發送電子郵件或完成財務交易)之前需要用戶提供個人數據或同意的任何情況。在達到這種情況時,Fara-7B 旨在暫停並在繼續之前明確請求用戶批准。” […] “這種方法可以幫助組織滿足受監管部門的嚴格要求,包括 HIPAA 和 GLBA。”
加劇“代理 AI”軍備競賽,該版本直接與 Anthropic 的計算機使用功能、OpenAI 推出的 ChatGPT Agent 以及 Google 的 Gemini 2.5 計算機使用預覽競爭。
雖然競爭對手專注於基於雲的解決方案,但 Fara-7B 為本地、注重隱私的解決方案留下了空白
與經常需要雲連接的競爭對手不同,Fara-7B 的開放重量性質允許開發人員在完全氣隙的環境中微調和部署模型。
微軟已在 Hugging Face 和 Azure Foundry 上根據 MIT 寬鬆許可發布了該模型,鼓勵社區廣泛採用和迭代。與其主要競爭對手的封閉生態系統相比,這種開放方法有可能加速本地代理領域的創新。