Google đã đã công bố bản xem trước dành cho nhà phát triển về mô hình Sử dụng máy tính Gemini 2.5, một tác nhân AI mới có thể điều khiển trình duyệt web để thực hiện các tác vụ cho người dùng. Công cụ này hiện có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI.
Bản phát hành này đặt Google vào cuộc cạnh tranh trực tiếp với các tác nhân AI tương tự của các đối thủ như OpenAI và Anthropic. Công nghệ này cho phép AI xem nội dung trên màn hình, sau đó nhấp, nhập và điều hướng các trang web để tự động hóa các công việc kỹ thuật số phức tạp.
Động thái này đánh dấu một bước tiến quan trọng ngoài các chatbot đơn giản. Nó nhằm mục đích tạo ra các trợ lý có thể chủ động hoàn thành công việc thay mặt người dùng, thúc đẩy cuộc đua xây dựng các tác nhân AI thực sự tự chủ.
Cách Gemini học cách nhấp, nhập và cuộn
Về cốt lõi, mô hình Sử dụng máy tính Gemini 2.5 hoạt động theo cách mà tài liệu của Google mô tả là vòng lặp tác nhân liên tục.
Thay vì chỉ tạo ra văn bản, mục tiêu của AI là tạo ra các hành động. Quá trình này bắt đầu khi nhà phát triển gửi yêu cầu ban đầu, bao gồm mục tiêu cấp cao của người dùng, ảnh chụp màn hình của môi trường hiện tại và lịch sử các hành động gần đây.
Được xây dựng dựa trên khả năng suy luận và hiểu biết trực quan nâng cao của Gemini 2.5 Pro, mô hình này sẽ phân tích các thông tin đầu vào này để diễn giải các thành phần trên màn hình. Sau đó, nó tạo ra một phản hồi, thường là một lệnh có cấu trúc được gọi là `function_call`, thể hiện một hành động cụ thể trên giao diện người dùng như nhấp vào tọa độ hoặc nhập văn bản vào một trường.
[nội dung nhúng]
Điều quan trọng là mô hình không tự thực thi những hành động này. Mã phía máy khách của nhà phát triển sẽ nhận `function_call` và chịu trách nhiệm dịch nó thành lệnh thực trong môi trường đích, chẳng hạn như trình duyệt web. Theo Google, mô hình này chủ yếu được tối ưu hóa cho các trình duyệt nhưng cũng cho thấy hứa hẹn về khả năng kiểm soát giao diện người dùng trên thiết bị di động.
Sau khi hành động được thực thi, ứng dụng khách sẽ chụp ảnh màn hình mới và URL hiện tại. Sau đó, trạng thái mới này được gửi trở lại mô hình Sử dụng Máy tính dưới dạng `function_response`, khởi động lại vòng lặp. Quá trình lặp lại này cho phép tác nhân đánh giá kết quả của hành động cuối cùng và xác định bước logic tiếp theo cho đến khi nhiệm vụ của người dùng hoàn tất.
Mô hình này hỗ trợ nhiều hành động ngoài những thao tác nhấp chuột và nhập đơn giản. Các khả năng của nó bao gồm điều hướng đến các URL cụ thể, sử dụng thanh tìm kiếm, cuộn, di chuột để hiển thị menu và thậm chí thực hiện các thao tác kéo và thả, mang lại cho nó một bộ công cụ linh hoạt để tự động hóa các quy trình làm việc dựa trên web.
[nội dung nhúng]
Mặt trận mới trong Cuộc chiến tác nhân AI
Sự gia nhập của Google với Sử dụng máy tính Gemini 2.5 đã tăng cường đáng kể tạo ra một lĩnh vực vốn đã cạnh tranh, thúc đẩy cuộc chạy đua giữa những gã khổng lồ công nghệ để phát triển “AI tác nhân” có khả năng.
Lớp mô hình mới này thể hiện sự chuyển hướng chiến lược của ngành từ chatbot đàm thoại đến các hệ thống tự động có thể hiểu và vận hành quy trình công việc kỹ thuật số được thiết kế cho con người.
Sự ra mắt này là phản ứng trực tiếp trước những động thái từ các đối thủ chính. Anthropic là người đi đầu khi giới thiệu tính năng “Sử dụng máy tính” cho mẫu Claude 3.5 Sonnet vào tháng 10 năm 2024.
Gần đây hơn, Anthropic đã bắt đầu thí điểm thận trọng, tập trung vào bảo mật cho tiện ích mở rộng trình duyệt “Claude cho Chrome”.
OpenAI đặc biệt tích cực. Sau khi giới thiệu tác nhân “Nhà điều hành” đầu tiên vào tháng 1 năm 2025, công ty đã ra mắt Tác nhân ChatGPT mạnh mẽ hơn nhiều vào tháng 7 năm 2025. Không giống như mô hình chỉ dành cho trình duyệt của Google, ChatGPT Agent vận hành một “máy tính ảo”, cho phép nó truy cập vào thiết bị đầu cuối để thực thi mã cùng với trình duyệt của mình.
Microsoft cũng là một công ty lớn, nhắm mục tiêu tự động hóa doanh nghiệp với tính năng tương tự trong Copilot Studio. Với tư cách là Phó chủ tịch Microsoft, Charles Lamanna, đã nắm bắt một cách ngắn gọn mục tiêu cuối cùng của ngành: “Nếu một người có thể sử dụng ứng dụng thì nhân viên cũng có thể”.
Mặc dù mô hình Sử dụng máy tính Gemini 2.5 là một bản phát hành công khai mới nhưng nó được xây dựng dựa trên nghiên cứu nội bộ lâu dài của Google. Các phiên bản của công nghệ này hiện đã hỗ trợ các công cụ nội bộ như nguyên mẫu nghiên cứu Project Mariner và các tính năng hỗ trợ trong Chế độ AI trong Tìm kiếm, thể hiện một lộ trình rõ ràng từ thử nghiệm đến sản phẩm dành cho nhà phát triển.
Hiệu suất, An toàn và Con đường phía trước
Google tuyên bố mô hình của mình vượt trội hơn các lựa chọn thay thế hàng đầu trên một số điểm chuẩn kiểm soát trên web và thiết bị di động, bao gồm Online-Mind2Web và AndroidWorld, trong khi vẫn duy trì độ trễ thấp hơn. Các đối tác truy cập sớm đã lặp lại những tuyên bố về hiệu suất này.
Một người thử nghiệm, trợ lý AI Poke.com, đã tuyên bố: “Việc sử dụng máy tính của Gemini 2.5 vượt xa đối thủ cạnh tranh, thường nhanh hơn và tốt hơn 50% so với các giải pháp tốt nhất tiếp theo mà chúng tôi đã xem xét.”
Một dịch vụ khác, dịch vụ tự động hóa Autotab, đã báo cáo rằng “Việc sử dụng máy tính của Gemini 2.5 vượt trội hơn các mô hình khác ở khả năng phân tích cú pháp bối cảnh đáng tin cậy trong các trường hợp phức tạp, tăng hiệu suất lên tới 18% trong những đánh giá khó nhất của chúng tôi.”
Mặc dù có sự đổi mới nhanh chóng nhưng vẫn tồn tại những câu hỏi về hiệu quả trong thế giới thực của các tác nhân này.
Một nghiên cứu vào tháng 5 năm 2025 của Đại học Carnegie Mellon cho thấy ngay cả các tác nhân AI hàng đầu cũng phải vật lộn với các nhiệm vụ tự động hóa kinh doanh phức tạp. Sự hoài nghi này được một số nhà lãnh đạo ngành chia sẻ, trong đó Giám đốc điều hành Perplexity Aravind Srinivas thúc giục rằng “bất kỳ ai nói rằng các đại lý sẽ hoạt động vào năm 2025 thì nên nghi ngờ”.
Để giải quyết các rủi ro tiềm ẩn, Google đã xây dựng các biện pháp bảo vệ an toàn đáng kể. Mô hình này có thể đưa ra `quyết định an toàn` yêu cầu xác nhận rõ ràng của người dùng trước khi thực hiện các hành động có thể nhạy cảm, chẳng hạn như mua hàng hoặc xử lý dữ liệu cá nhân. Phương pháp tiếp cận con người trong vòng lặp này là một biện pháp bảo vệ quan trọng khi công nghệ phát triển.