Microsoft Research telah meluncurkan Fara-7B, model AI ringkas dengan 7 miliar parameter yang dirancang untuk menjalankan agen “penggunaan komputer”langsung di perangkat lokal.

Dengan memproses piksel layar seluruhnya di perangkat, model baru ini bertujuan untuk membangun “kedaulatan piksel”, yang memungkinkan perusahaan mengotomatisasi alur kerja sensitif tanpa memaparkan data ke cloud.

Dirilis hari ini di bawah lisensi MIT, Fara-7B dilaporkan mengungguli pesaingnya yang berbasis cloud.

seperti GPT-4o OpenAI pada tolok ukur navigasi utama sekaligus memangkas biaya inferensi hingga lebih dari 90%.

Kedaulatan Piksel: Peralihan ke Agen Lokal

Mendobrak tren industri dalam pemrosesan terpusat, peluncuran Fara-7B oleh Microsoft Research menandai perubahan strategis dari AI yang bergantung pada cloud ke apa yang mereka sebut “kedaulatan piksel”, memastikan data sensitif tidak pernah meninggalkan perangkat pengguna.

Di balik terpal, arsitekturnya mengandalkan model dasar Qwen2.5-VL-7B milik Alibaba, yang memproses data visual langsung dari tangkapan layar daripada mengandalkan pohon aksesibilitas atau struktur kode yang mendasarinya.

Dengan mengadopsi strategi “vision-first”, agen berinteraksi dengan antarmuka aplikasi apa pun seperti yang dilakukan manusia, tanpa memerlukan integrasi API khusus, kata Microsoft.

“Ukuran kecil Fara-7B kini memungkinkan untuk menjalankan model CUA secara langsung di perangkat. Hal ini menghasilkan pengurangan latensi dan peningkatan privasi, karena data pengguna tetap bersifat lokal.”

Eksekusi lokal mengatasi permasalahan penting perusahaan terkait privasi data, khususnya untuk industri teregulasi yang menangani data keuangan atau layanan kesehatan. Dengan menyimpan semua inferensi di mesin lokal, organisasi dapat menerapkan agen otonom tanpa memaparkan alur kerja kepemilikan atau informasi pelanggan ke server pihak ketiga.

Dengan menghilangkan latensi permintaan cloud bolak-balik, agen di perangkat dapat bereaksi lebih cepat terhadap perubahan UI, sehingga menciptakan pengalaman pengguna yang lebih lancar. Ketangkasan seperti itu terbukti penting untuk alur kerja multi-langkah yang kompleks, di mana penundaan dapat menyebabkan hilangnya produktivitas secara signifikan. Menurut Microsoft:

“Agen khusus piksel dapat bekerja di banyak aplikasi tanpa penyelarasan atau integrasi, yang merupakan keuntungan besar. Namun jika UI berubah, agen mungkin akan kesulitan. Agen ini kuat, namun juga rapuh.”

Dioptimalkan untuk perangkat keras konsumen, arsitektur parameter ringkas 7 miliar menargetkan kemampuan NPU pada PC Copilot+. Dapat diakses tanpa infrastruktur yang mahal, kemampuan ini memastikan bahwa fitur agen tingkat lanjut tetap dapat dijangkau untuk penerapan standar perusahaan.

Efisiensi & Tolok Ukur: Biaya Otonomi

Dalam tantangan langsung terhadap perusahaan raksasa, Fara-7B mencapai tingkat keberhasilan 73,5% pada tolok ukur WebVoyager, melampaui skor GPT-4o (SoM) OpenAI sebesar 65,1%. Hasil tersebut menunjukkan bahwa model yang lebih kecil dan terspesialisasi dapat mengungguli model yang lebih besar dan bertujuan umum pada tugas tertentu.

Menurut dokumentasi teknis, Fara-7B berfungsi sebagai model khusus dekoder multimodal yang dibangun berdasarkan arsitektur Qwen2.5-VL-7B milik Alibaba. Sistem memproses sasaran pengguna, tangkapan layar browser, dan riwayat tindakan dalam jendela konteks 128.000 token.

Agen AI lokal baru saja mencapai titik balik yang besar. 🚨

Microsoft menjatuhkan Fara-7B, dan mengalahkan GPT-4o dalam navigasi web sambil berjalan sepenuhnya secara lokal.

Teknologinya pintar: Daripada menggores kode (DOM) seperti skrip jadul, ia menggunakan pengenalan visual untuk”melihat”layar Anda… pic.twitter.com/UEzYkTTcop

— Yi (@imhaoyi) 25 November 2025

Microsoft Research menetapkan bahwa rangkaian alat model selaras dengan antarmuka Magentic-UI, memungkinkan tindakan seperti mengetik, mengeklik, dan menggulir, sekaligus memprediksi koordinat secara langsung sebagai posisi piksel di layar.

Pengujian independen oleh Browserbase memvalidasi status model yang “canggih” untuk kelas ukurannya, meskipun model ini melaporkan tingkat keberhasilan yang sedikit lebih rendah yaitu 62% dalam kondisi dunia nyata. Terlepas dari perbedaan ini, model ini tetap sangat kompetitif dan menawarkan alternatif yang layak untuk solusi yang lebih intensif sumber daya.

Efisiensi biaya adalah pembeda utama, dengan Microsoft memperkirakan biaya rata-rata sebesar $0,025 per tugas dibandingkan dengan ~$0,30 untuk model seperti GPT-5 atau o3. Dengan menurunkan hambatan masuk, struktur biaya ini dapat secara signifikan mempercepat penerapan agen secara luas.

Seperti yang dijelaskan dalam pengumuman resmi:

“Di WebVoyager, Fara-7B menggunakan rata-rata 124.000 masukan token dan 1.100 token keluaran per tugas, dengan sekitar 16,5 tindakan. Dengan menggunakan harga token pasar, tim peneliti memperkirakan biaya rata-rata sebesar 0,025 dolar per tugas, dibandingkan sekitar 0,30 dolar untuk agen SoM yang didukung oleh model penalaran eksklusif seperti GPT-5 dan o3.”

Tolok ukur kecepatan menunjukkan keunggulan yang signifikan, dengan model menyelesaikan tugas dalam waktu sekitar 154 detik dibandingkan 254 detik untuk pesaingnya. Model UI-TARS-1.5-7B, menurut Browserbase.

Dikombinasikan dengan biaya operasional yang rendah, eksekusi yang cepat menjadikan Fara-7B pilihan yang menarik untuk tugas otomatisasi volume tinggi.

Meskipun ukurannya kecil, Fara-7B mempertahankan jendela konteks 128.000 token yang substansial, memungkinkannya menyimpan riwayat alur kerja multi-langkah yang panjang, seperti yang disebutkan dalam pengumuman resmi.

“Ke depannya, kami akan berusaha mempertahankan ukuran kecil model kami. Penelitian berkelanjutan kami berfokus pada membuat model agen lebih cerdas dan aman, bukan hanya lebih besar,” kata Microsoft.

Perusahaan mengakui bahwa model tersebut adalah eksperimental, menunjukkan keterbatasan:

“Anda dapat dengan bebas bereksperimen dan membuat prototipe dengan Fara‑7B di bawah lisensi MIT, namun ini paling cocok untuk uji coba dan pembuktian konsep daripada penerapan yang sangat penting.”

Ekosistem Agen: Keamanan & Persaingan

Untuk melatih model tanpa anotasi manusia yang mahal, Microsoft mengembangkan “FaraGen,” saluran data sintetis yang menghasilkan lebih dari satu 145.000 lintasan tugas terverifikasi.

Dengan meningkatkan skala data pelatihan dengan cepat, metode ini mengatasi hambatan utama dalam pengembangan agen.

Keamanan diterapkan melalui mekanisme “Titik Kritis”, yang menghentikan sementara agen dan meminta persetujuan pengguna sebelum melakukan tindakan yang tidak dapat diubah seperti pembelian atau pengiriman email. Menurut repositori model:

“Titik Kritis didefinisikan sebagai situasi apa pun yang memerlukan data pribadi atau persetujuan pengguna sebelum terjadi tindakan yang tidak dapat diubah, seperti mengirim email atau menyelesaikan transaksi keuangan. Setelah mencapai titik tersebut, Fara-7B dirancang untuk menjeda dan secara eksplisit meminta persetujuan pengguna sebelum melanjutkan.”[…] “Pendekatan ini membantu organisasi memenuhi persyaratan ketat di sektor yang diatur, termasuk HIPAA dan GLBA.”

Mengintensifkan perlombaan senjata “AI agen”, rilis ini secara langsung bersaing dengan fitur Penggunaan Komputer Anthropic, peluncuran Agen ChatGPT dari OpenAI, dan pratinjau Penggunaan Komputer Gemini 2.5 dari Google.

Meskipun para pesaing fokus pada solusi berbasis cloud, Fara-7B menyisakan celah untuk solusi lokal yang berfokus pada privasi alternatif.

Tidak seperti pesaing yang sering membutuhkan konektivitas cloud, sifat terbuka Fara-7B memungkinkan pengembang untuk menyempurnakan dan menerapkan model di lingkungan yang sepenuhnya memiliki celah udara. 

Microsoft telah merilis model di bawah lisensi MIT yang permisif pada Hugging Face dan Azure Foundry, sehingga mendorong adopsi dan iterasi komunitas luas. Berbeda dengan ekosistem tertutup yang dimiliki pesaing utamanya, pendekatan terbuka ini berpotensi mempercepat inovasi di bidang agen lokal.

Categories: IT Info