Google telah mengumumkan pratinjau pengembang model Penggunaan Komputer Gemini 2.5, agen AI baru yang dapat mengontrol browser web untuk melakukan tugas bagi pengguna. Alat ini kini tersedia untuk pengembang melalui Google AI Studio dan Vertex AI.
Rilis ini menempatkan Google dalam persaingan langsung dengan agen AI serupa dari pesaing seperti OpenAI dan Anthropic. Teknologi ini memungkinkan AI melihat apa yang ada di layar lalu mengeklik, mengetik, dan menavigasi situs web untuk mengotomatiskan tugas-tugas digital yang rumit.
Langkah ini menandai langkah signifikan melampaui chatbot sederhana. Hal ini bertujuan untuk menciptakan asisten yang dapat secara aktif menyelesaikan pekerjaan atas nama pengguna, sehingga meningkatkan perlombaan untuk membangun agen AI yang benar-benar otonom.
Cara Gemini Belajar Mengklik, Mengetik, dan Menggulir
Pada intinya, model Penggunaan Komputer Gemini 2.5 beroperasi sesuai dengan apa yang digambarkan dalam dokumentasi Google sebagai agen yang berkelanjutan loop.
Daripada hanya menghasilkan teks, tujuan AI adalah menghasilkan tindakan. Prosesnya dimulai saat pengembang mengirimkan permintaan awal, yang mencakup sasaran tingkat tinggi pengguna, tangkapan layar lingkungan saat ini, dan riwayat tindakan terkini.
Dibangun berdasarkan pemahaman visual tingkat lanjut dan kemampuan penalaran Gemini 2.5 Pro, model menganalisis masukan ini untuk menafsirkan elemen di layar. Model kemudian menghasilkan respons, biasanya perintah terstruktur yang disebut `function_call`, yang mewakili tindakan UI tertentu seperti mengeklik koordinat atau mengetik teks ke dalam bidang.
[konten tersemat]
Yang terpenting, model tidak menjalankan tindakan ini sendiri. Kode sisi klien milik pengembang menerima `function_call` dan bertanggung jawab untuk menerjemahkannya menjadi perintah nyata di lingkungan target, seperti browser web. Model ini terutama dioptimalkan untuk browser tetapi juga menjanjikan kontrol UI seluler, menurut Google.
Setelah tindakan dijalankan, aplikasi klien mengambil tangkapan layar baru dan URL saat ini. Status baru ini kemudian dikirim kembali ke model Penggunaan Komputer sebagai `function_response`, yang memulai ulang loop. Proses berulang ini memungkinkan agen untuk menilai hasil dari tindakan terakhirnya dan menentukan langkah logis berikutnya hingga tugas pengguna selesai.
Model ini mendukung berbagai tindakan selain klik dan pengetikan sederhana. Kemampuannya mencakup bernavigasi ke URL tertentu, menggunakan bilah pencarian, menggulir, mengarahkan kursor untuk membuka menu, dan bahkan melakukan operasi drag-and-drop, menjadikannya perangkat serbaguna untuk mengotomatisasi alur kerja berbasis web.
[konten tertanam]
Sebuah Front Baru dalam Perang Agen AI
Entri Google dengan Gemini 2.5 Penggunaan Komputer secara signifikan memanaskan bidang yang sudah kompetitif, meningkatkan perlombaan di antara raksasa teknologi untuk mengembangkan “AI agen” yang mumpuni.
Model kelas baru ini mewakili poros industri strategis dari chatbot percakapan ke sistem otonom yang dapat memahami dan mengoperasikan alur kerja digital yang dirancang untuk manusia.
Peluncuran ini merupakan respons langsung terhadap langkah dari pesaing utama. Anthropic adalah penggerak awal, memperkenalkan fitur “Penggunaan Komputer”untuk model Claude 3.5 Sonnet pada bulan Oktober 2024.
Baru-baru ini, Anthropic memulai uji coba yang hati-hati dan berfokus pada keamanan untuk ekstensi browser “Claude untuk Chrome”.
OpenAI sangat agresif. Setelah memperkenalkan agen “Operator”pertamanya pada bulan Januari 2025, perusahaan ini meluncurkan Agen ChatGPT yang jauh lebih canggih pada bulan Juli 2025. Tidak seperti model Google yang hanya menggunakan browser, Agen ChatGPT mengoperasikan “komputer virtual”, yang memberikannya akses ke terminal untuk eksekusi kode bersama browsernya.
Microsoft juga merupakan pemain utama, menargetkan otomatisasi perusahaan dengan fitur serupa di Copilot Studio miliknya. Salah satu Wakil Presiden Microsoft, Charles Lamanna, secara ringkas menggambarkan tujuan utama industri ini, “Jika seseorang dapat menggunakan aplikasi, agen juga dapat menggunakannya.”
Meskipun model Penggunaan Komputer Gemini 2.5 adalah rilis publik yang baru, model ini dibangun berdasarkan penelitian internal Google yang sudah berjalan lama. Versi teknologi ini sudah mendukung alat internal seperti prototipe penelitian Project Mariner dan fitur agen dalam Mode AI di Penelusuran, menunjukkan jalur yang jelas dari eksperimen hingga produk yang dapat dikembangkan oleh pengembang.
Kinerja, Keamanan, dan Solusi ke Depan
Google mengklaim modelnya mengungguli alternatif terkemuka di beberapa tolok ukur kontrol web dan seluler, termasuk Online-Mind2Web dan AndroidWorld, dengan tetap mempertahankan latensi yang lebih rendah. Mitra akses awal telah menyetujui klaim kinerja ini.
Salah satu penguji, asisten AI Poke.com, menyatakan, “Penggunaan Komputer Gemini 2.5 jauh lebih unggul dalam persaingan, sering kali 50% lebih cepat dan lebih baik daripada solusi terbaik berikutnya yang kami pertimbangkan.”
Layanan otomasi lainnya, Autotab, melaporkan bahwa “Penggunaan Komputer Gemini 2.5 mengungguli model lain dalam hal yang dapat diandalkan menguraikan konteks dalam kasus-kasus kompleks, sehingga meningkatkan performa hingga 18% pada evaluasi tersulit kami.”
Meskipun ada inovasi yang cepat, pertanyaan tentang efektivitas agen-agen ini di dunia nyata tetap ada.
Studi pada bulan Mei 2025 dari Carnegie Mellon University menemukan bahwa bahkan agen AI terkemuka pun kesulitan dengan tugas-tugas otomatisasi bisnis yang kompleks. Skeptisisme ini juga dimiliki oleh beberapa pemimpin industri, dan CEO Perplexity Aravind Srinivas menyatakan bahwa “siapa pun yang mengatakan agen akan bekerja pada tahun 2025 harus bersikap skeptis.”
Untuk mengatasi potensi risiko, Google telah membangun pagar keamanan yang signifikan. Model ini dapat mengeluarkan `keputusan_keamanan` yang memerlukan konfirmasi pengguna secara eksplisit sebelum melakukan tindakan yang berpotensi sensitif, seperti melakukan pembelian atau menangani data pribadi. Pendekatan human-in-the-loop ini merupakan perlindungan penting seiring dengan semakin matangnya teknologi.