Microsoft Research が、ローカル デバイス上で直接「コンピュータ使用」エージェントを実行するように設計されたコンパクトな 70 億パラメータの AI モデルである Fara-7B を発表しました。
新しいモデルは、画面ピクセルを完全にオンデバイスで処理することにより、「ピクセル主権」を確立することを目指しており、企業はデータをクラウドに公開することなく機密性の高いワークフローを自動化できます。
MIT ライセンスの下で本日リリースされた Fara-7B は、大規模なクラウドベースのライバルを上回る性能を発揮すると伝えられています。主要なナビゲーション ベンチマークでは OpenAI の GPT-4o と同様に、推論コストを 90% 以上削減します。
ピクセル主権: ローカル エージェントへの移行
集中処理という業界のトレンドから脱却し、Microsoft Research がリリースした Fara-7B は、クラウドに依存した AI からいわゆる「ピクセル主権」への戦略的転換を示し、機密データがユーザーのデバイスから決して流出しないようにします。
内部では、アーキテクチャは Alibaba に依存しています。 Qwen2.5-VL-7B ベース モデルは、アクセシビリティ ツリーや基盤となるコード構造に依存するのではなく、スクリーンショットからビジュアル データを直接処理します。
「ビジョンファースト」戦略を採用し、エージェントは人間と同じようにアプリケーション インターフェイスと対話し、カスタム API 統合の必要性を回避します。
ローカル実行により、データ プライバシーに関する企業の重大な懸念、特に金融データや医療データを扱う規制された業界の企業の懸念に対処します。すべての推論をローカル マシン上に保持することで、組織は独自のワークフローや顧客情報をサードパーティ サーバーに公開することなく自律エージェントを展開できます。 Microsoft は次のように述べています。
「Fara-7B のサイズが小さいため、デバイス上で CUA モデルを直接実行できるようになりました。これにより、ユーザー データがローカルに保たれるため、待ち時間が短縮され、プライバシーが向上します。」
往復のクラウド リクエストの待ち時間をなくすことで、デバイス上のエージェントは UI の変更により速く反応でき、よりスムーズなユーザー エクスペリエンスを実現します。このような機敏性は、遅延が重大な生産性の損失につながる可能性がある複雑な複数のステップからなるワークフローにとって重要であることがわかります。 Microsoft によると:
「ピクセルのみのエージェントは、調整や統合を必要とせずに多くのアプリケーションで動作できます。これは大きな利点です。しかし、UI が変更されると、エージェントは苦戦する可能性があります。強力ではありますが、脆弱でもあります。」
コンシューマ ハードウェア向けに最適化されたコンパクトな 70 億パラメータ アーキテクチャは、Copilot+ PC の NPU 機能をターゲットとしています。これらの機能により、高価なインフラストラクチャなしでアクセスできるため、高度なエージェント機能を標準的な企業展開でも確実に利用できるようになります。
効率とベンチマーク: 自律性のコスト
独自の巨人に対する直接的な挑戦において、Fara-7B は WebVoyager ベンチマークで 73.5% の成功率を達成し、OpenAI の GPT-4o のスコア 65.1% を上回りました。 (SoM)。このような結果は、特定のタスクでは、より小型の特殊モデルがより大型の汎用モデルよりも優れたパフォーマンスを発揮できることを示唆しています。
技術文書によると、Fara-7B は、Alibaba の Qwen2.5-VL-7B アーキテクチャに基づいて構築されたマルチモーダル デコーダ専用モデルとして機能します。このシステムは、ユーザーの目標、ブラウザのスクリーンショット、およびアクション履歴を 128,000 トークンのコンテキスト ウィンドウ内で処理します。
ローカル AI エージェントは、大きな転換点を迎えています。 🚨
Microsoft は Fara-7B を開発し、完全にローカルで実行しながら Web ナビゲーションで GPT-4o を上回りました。
この技術は賢いです。昔ながらのスクリプトのようにコード (DOM) をスクレイピングする代わりに、視覚認識を使用して画面を「見る」ことができます… pic.twitter.com/UEzYkTTcop
— Yi (@imhaoyi) 2025 年 11 月 25 日
Microsoft Research は、モデルのツールセットが Magentic-UI と一致していると指定しています
Browserbase による独立したテストでは、そのサイズ クラスにおけるモデルの「最先端」のステータスが検証されていますが、成功率がわずかに低いことが報告されています。現実世界の状況では 62%。この差異にもかかわらず、このモデルは引き続き高い競争力を維持し、よりリソースを大量に消費するソリューションに代わる実行可能な代替手段を提供します。
コスト効率が大きな差別化要因であり、Microsoft では、タスクあたりの平均コストが 0.025 ドルであるのに対し、GPT-5 や o3 などのモデルでは約 0.30 ドルと見積もっています。このコスト構造により、参入障壁が低くなり、広範なエージェント展開が大幅に加速される可能性があります。
公式発表で詳しく説明されているように:
「WebVoyager では、Fara-7B は平均 124,000 の入力を使用します」研究チームは、市場トークン価格を使用して、タスクあたりの平均コストを 0.025 ドルと見積もっています。これに対し、GPT-5 や o3 などの独自の推論モデルに裏付けられた SoM エージェントのコストは約 0.30 ドルです。」
速度ベンチマークでは、モデルが約 154 秒でタスクを完了するという大きな利点が示されています。 Browserbase によると、競合する UI-TARS-1.5-7B モデルの場合は 254 秒です。
低い運用コストと相まって、高速実行により、Fara-7B は大量の自動化タスクにとって魅力的なオプションになります。
サイズが小さいにもかかわらず、Fara-7B は 128,000 トークンの相当なコンテキスト ウィンドウを維持し、前述したように、長い複数ステップのワークフローにわたって履歴を保持できます。 公式発表に記載されています。
「今後も、モデルのサイズを小さく維持するよう努めていきます。現在進行中の研究は、エージェント モデルを単に大きくするだけでなく、よりスマートで安全なものにすることに重点を置いています」と Microsoft は述べています。
同社は、モデルは実験的であり、制限があることを示しています:
「MIT ライセンスに基づいて Fara-7B を自由に実験およびプロトタイプ作成できますが、ミッションクリティカルな展開ではなく、パイロットや概念実証に最適です。」
エージェント エコシステム: 安全性と競争
高価な人間による注釈なしでモデルをトレーニングするために、Microsoft は合成データ「FaraGen」を開発しました。
トレーニング データを迅速に拡張するこの方法は、エージェント開発の主要なボトルネックに対処します。
安全性は「クリティカル ポイント」メカニズムによって強化され、購入や電子メールの送信などの取り消しできないアクションの前にエージェントを一時停止し、ユーザーの承認を要求します。 モデル リポジトリによると:
「クリティカル ポイントとは、電子メールの送信や金融取引の完了など、取り消せないアクションが発生する前にユーザーの個人データまたは同意を必要とする状況と定義されます。そのような分岐点に達すると、Fara-7B は一時停止し、続行する前にユーザーの承認を明示的に要求するように設計されています。」 […] 「このアプローチは、組織が HIPAA や GLBA などの規制分野の厳しい要件を満たすのに役立ちます。」
「エージェント AI」軍拡競争が激化し、このリリースは Anthropic のコンピューター使用機能、OpenAI からリリースされた ChatGPT エージェント、Google からの Gemini 2.5 コンピューター使用プレビューと直接競合します。
ライバルがクラウドベースのソリューションに焦点を当てている一方で、Fara-7B はローカル、
クラウド接続を必要とすることが多い競合他社とは異なり、Fara-7B のオープンウェイトの性質により、開発者は完全にエアギャップされた環境でモデルを微調整して展開することができます。
Microsoft は、Hugging Face と Azure Foundry 上で寛容な MIT ライセンスの下でモデルをリリースし、広範なコミュニティでの採用と反復を奨励しています。主なライバルの閉鎖的なエコシステムとは対照的に、このオープンなアプローチは、ローカル エージェント領域のイノベーションを加速する可能性があります。