Microsoft Research đã công bố Fara-7B, một mô hình AI nhỏ gọn gồm 7 tỷ tham số được thiết kế để chạy các tác nhân”sử dụng máy tính”trực tiếp trên các thiết bị cục bộ.
Bằng cách xử lý pixel màn hình hoàn toàn trên thiết bị, mô hình mới nhằm mục đích thiết lập”chủ quyền của pixel”, cho phép doanh nghiệp tự động hóa các quy trình làm việc nhạy cảm mà không để lộ dữ liệu lên đám mây.
Được phát hành ngày hôm nay theo giấy phép MIT, Fara-7B được cho là hoạt động tốt hơn các đối thủ khổng lồ dựa trên đám mây như GPT-4o của OpenAI trên điểm chuẩn điều hướng chính trong khi giảm hơn 90 chi phí suy luận.
Chủ quyền pixel: Sự chuyển đổi sang các đại lý địa phương
Bứt phá khỏi xu hướng xử lý tập trung trong ngành, việc phát hành Fara-7B của Microsoft Research đánh dấu một bước chuyển chiến lược từ AI phụ thuộc vào đám mây sang cái mà họ gọi là”chủ quyền pixel”, đảm bảo dữ liệu nhạy cảm không bao giờ rời khỏi thiết bị của người dùng.
Về cơ bản, kiến trúc này dựa trên mô hình cơ sở Qwen2.5-VL-7B của Alibaba, xử lý dữ liệu hình ảnh trực tiếp từ ảnh chụp màn hình thay vì dựa vào trên cây khả năng truy cập hoặc cấu trúc mã cơ bản.
Áp dụng chiến lược”tầm nhìn là trên hết”, tác nhân tương tác với bất kỳ giao diện ứng dụng nào giống như con người, bỏ qua nhu cầu tích hợp API tùy chỉnh.
Việc thực thi cục bộ giải quyết những lo ngại quan trọng của doanh nghiệp về quyền riêng tư dữ liệu, đặc biệt đối với các ngành được quản lý xử lý dữ liệu tài chính hoặc chăm sóc sức khỏe. Bằng cách giữ tất cả suy luận trên máy cục bộ, các tổ chức có thể triển khai các tác nhân tự trị mà không tiết lộ quy trình làm việc độc quyền hoặc thông tin khách hàng cho máy chủ của bên thứ ba. Microsoft cho biết,
“Kích thước nhỏ của Fara-7B hiện có thể chạy các mô hình CUA trực tiếp trên thiết bị. Điều này giúp giảm độ trễ và cải thiện quyền riêng tư vì dữ liệu người dùng vẫn cục bộ.”
Bằng cách loại bỏ độ trễ của các yêu cầu khứ hồi trên đám mây, các tác nhân trên thiết bị có thể phản ứng nhanh hơn với những thay đổi về giao diện người dùng, tạo ra trải nghiệm người dùng mượt mà hơn. Sự linh hoạt như vậy tỏ ra rất quan trọng đối với quy trình làm việc phức tạp, gồm nhiều bước, trong đó sự chậm trễ có thể dẫn đến tổn thất năng suất đáng kể. Theo Microsoft:
“Tác nhân chỉ có pixel có thể hoạt động trên nhiều ứng dụng mà không cần căn chỉnh hoặc tích hợp, đây là một lợi thế lớn. Nhưng nếu giao diện người dùng thay đổi, tác nhân có thể gặp khó khăn. Nó mạnh mẽ nhưng cũng dễ hỏng.”
Được tối ưu hóa cho phần cứng tiêu dùng, kiến trúc 7 tỷ tham số nhỏ gọn nhắm vào khả năng NPU của PC Copilot+. Có thể sử dụng được mà không cần cơ sở hạ tầng đắt tiền, những khả năng này đảm bảo rằng các tính năng tác nhân tiên tiến vẫn nằm trong tầm tay để triển khai theo tiêu chuẩn của doanh nghiệp.
Hiệu quả & Điểm chuẩn: Chi phí của quyền tự chủ
Trong thách thức trực tiếp với những gã khổng lồ độc quyền, Fara-7B đạt tỷ lệ thành công 73,5% trên điểm chuẩn WebVoyager, vượt qua điểm 65,1% của GPT-4o (SoM) của OpenAI. Những kết quả như vậy cho thấy rằng các mô hình chuyên dụng, nhỏ hơn có thể hoạt động tốt hơn các mô hình lớn hơn, có mục đích chung trong các nhiệm vụ cụ thể.
Theo tài liệu kỹ thuật, Fara-7B hoạt động như một mô hình chỉ dành cho bộ giải mã đa phương thức được xây dựng dựa trên kiến trúc Qwen2.5-VL-7B của Alibaba. Hệ thống xử lý mục tiêu của người dùng, ảnh chụp màn hình trình duyệt và lịch sử hành động trong cửa sổ ngữ cảnh chứa 128.000 mã thông báo.
Các tác nhân AI địa phương vừa đạt được một bước ngoặt lớn. 🚨
Microsoft đã bỏ Fara-7B và nó đánh bại GPT-4o trong điều hướng web trong khi chạy hoàn toàn cục bộ.
Công nghệ này rất thông minh: Thay vì loại bỏ mã (DOM) như các tập lệnh cổ điển, nó sử dụng nhận dạng hình ảnh để “xem” màn hình của bạn… pic.twitter.com/UEzYkTTcop
— Yi (@imhaoyi) Ngày 25 tháng 11 năm 2025
Nghiên cứu của Microsoft chỉ định rằng bộ công cụ của mô hình phù hợp với giao diện Magentic-UI, cho phép các hành động như vậy như nhập, nhấp và cuộn, đồng thời dự đoán tọa độ trực tiếp dưới dạng vị trí pixel trên màn hình.
Thử nghiệm độc lập của Browserbase xác nhận trạng thái”hiện đại”của mô hình đối với loại kích thước của nó, mặc dù mô hình này báo cáo tỷ lệ thành công thấp hơn một chút là 62% trong điều kiện thực tế. Bất chấp sự khác biệt này, mô hình này vẫn có tính cạnh tranh cao, cung cấp giải pháp thay thế khả thi cho các giải pháp sử dụng nhiều tài nguyên hơn.
Hiệu quả chi phí là điểm khác biệt chính, trong đó Microsoft ước tính chi phí trung bình là 0,025 USD cho mỗi tác vụ so với ~ 0,30 USD cho các mô hình như GPT-5 hoặc o3. Giảm rào cản gia nhập, cơ cấu chi phí này có thể tăng tốc đáng kể việc triển khai đại lý trên diện rộng.
Như được nêu chi tiết trong thông báo chính thức:
“Trên WebVoyager, Fara-7B sử dụng trung bình 124.000 mã thông báo đầu vào và 1.100 mã thông báo đầu ra cho mỗi nhiệm vụ, với khoảng 16,5 hành động. Sử dụng giá mã thông báo thị trường, nhóm nghiên cứu ước tính chi phí trung bình là 0,025 đô la cho mỗi nhiệm vụ, so với khoảng 0,30 đô la đối với các đại lý SoM được hỗ trợ bởi các mô hình lý luận độc quyền như GPT-5 và o3.”
Tiêu chuẩn tốc độ cho thấy những lợi thế đáng kể, với mô hình hoàn thành nhiệm vụ trong khoảng 154 giây so với 254 giây của đối thủ cạnh tranh. Theo Browserbase, mô hình UI-TARS-1.5-7B.
Kết hợp với chi phí vận hành thấp, khả năng thực thi nhanh chóng khiến Fara-7B trở thành một lựa chọn hấp dẫn cho các tác vụ tự động hóa khối lượng lớn.
Mặc dù có kích thước nhỏ, Fara-7B vẫn duy trì một cửa sổ ngữ cảnh đáng kể chứa 128.000 mã thông báo, cho phép nó lưu giữ lịch sử qua các quy trình làm việc dài, gồm nhiều bước, như đã lưu ý trong thông báo chính thức.
“Trong tương lai, chúng tôi sẽ cố gắng duy trì kích thước nhỏ của các mô hình của mình. Nghiên cứu đang diễn ra của chúng tôi tập trung vào việc làm cho các mô hình tác nhân thông minh hơn và an toàn hơn chứ không chỉ lớn hơn”.
Công ty thừa nhận mô hình này chỉ mang tính thử nghiệm, đồng thời chỉ ra rằng hạn chế:
“Bạn có thể tự do thử nghiệm và tạo nguyên mẫu với Fara‑7B theo giấy phép MIT, nhưng nó phù hợp nhất cho các phi công và bằng chứng về khái niệm thay vì triển khai quan trọng.”
Hệ sinh thái Agentic: An toàn & Cạnh tranh
Để đào tạo mô hình mà không cần chú thích tốn kém của con người, Microsoft đã phát triển “FaraGen”, một đường dẫn dữ liệu tổng hợp tạo ra hơn 145.000 dữ liệu đã được xác minh quỹ đạo nhiệm vụ.
Nhanh chóng mở rộng quy mô dữ liệu đào tạo, phương pháp này giải quyết một nút thắt chính trong quá trình phát triển nhân viên hỗ trợ.
Sự an toàn được thực thi thông qua cơ chế”Điểm quan trọng”. Cơ chế này sẽ tạm dừng nhân viên và yêu cầu người dùng phê duyệt trước các hành động không thể đảo ngược như mua hàng hoặc gửi email. Theo kho lưu trữ mô hình:
“Điểm quan trọng được định nghĩa là bất kỳ tình huống nào yêu cầu dữ liệu cá nhân hoặc sự đồng ý của người dùng trước khi xảy ra hành động không thể đảo ngược, chẳng hạn như gửi email hoặc hoàn thành giao dịch tài chính. Khi đến thời điểm đó, Fara-7B được thiết kế để tạm dừng và yêu cầu sự chấp thuận rõ ràng của người dùng trước khi tiếp tục.”[…] “Cách tiếp cận này giúp các tổ chức đáp ứng các yêu cầu nghiêm ngặt trong các lĩnh vực được quản lý, bao gồm HIPAA và GLBA.”
Tăng cường cuộc chạy đua vũ trang”agent AI”, bản phát hành cạnh tranh trực tiếp với tính năng Sử dụng máy tính của Anthropic, tính năng ra mắt ChatGPT Agent từ OpenAI và bản xem trước Sử dụng máy tính Gemini 2.5 từ Google.
Trong khi các đối thủ tập trung vào các giải pháp dựa trên đám mây, Fara-7B để lại khoảng trống cho các lựa chọn thay thế tập trung vào quyền riêng tư, cục bộ.
Không giống như các đối thủ cạnh tranh thường yêu cầu kết nối đám mây, tính chất mở của Fara-7B cho phép các nhà phát triển tinh chỉnh và triển khai mô hình trong môi trường hoàn toàn không có khoảng cách.
Microsoft đã phát hành mô hình này theo giấy phép MIT cho phép trên Hugging Face và Azure Foundry, khuyến khích áp dụng và lặp lại rộng rãi trong cộng đồng. Ngược lại với hệ sinh thái khép kín của các đối thủ chính, cách tiếp cận mở này có khả năng thúc đẩy sự đổi mới trong không gian đại lý địa phương.