Google telah meluncurkan Gemini 2.0 dan Gemini 2.0 Flash sebagai penawaran terbaru dalam keluarga kecerdasan buatan Gemini yang berkembang pesat.
Gemini 2.0 menandakan apa yang disebut oleh pimpinan perusahaan sebagai “era agen” kecerdasan buatan ketika AI tidak lagi sekadar memahami informasi namun dapat menggunakan pemahaman tersebut untuk membuat rencana ke depan dan mengambil tindakan.
Evolusi ini dibangun berdasarkan upaya puluhan tahun dalam mengatur informasi dunia. Hal ini juga mengikuti perkembangan yang dimulai dengan Gemini 1.0 dan 1.5 , yang memelopori multimodalitas asli, memungkinkan model AI berfungsi di seluruh teks, video, gambar, audio, dan kode.
Dengan Gemini 2.0, Google bermaksud untuk melampaui fungsi tanya jawab statis dan menerapkan sistem yang mampu menavigasi skenario kompleks, berinteraksi dengan berbagai alat, dan bekerja lebih mandiri atas nama pengguna, di bawah pengawasan manusia.
Sundar Pichai, CEO Google dan Alphabet, menggambarkan kemajuan ini sebagai misi jangka panjang perusahaan. Ia menjelaskan bahwa sejak didirikan, Google berfokus untuk membuat informasi dapat diakses dan berguna, dan AI kini berperan sebagai pendorong utama dalam mewujudkan visi tersebut.
“Jika Gemini 1.0 adalah tentang mengatur dan memahami informasi, maka Gemini 2.0 adalah tentang membuatnya jauh lebih berguna. Saya tidak sabar untuk melihat apa yang akan dihasilkan oleh era berikutnya,”kata Pichai. Rilis baru ini hadir setelah berbulan-bulan masukan dari pengembang mengenai model Gemini sebelumnya dan integrasi model tersebut ke dalam tujuh produk Google yang masing-masing digunakan oleh lebih dari 2 miliar orang.
Jutaan pengembang telah terlibat dengan Gemini sejak Desember lalu, perusahaan memandang Gemini 2.0 sebagai langkah maju yang besar, memungkinkan pengalaman berbasis agen baru dan transformasi produk yang lebih luas.
Daftar Isi:
Mencapai Era Agentik
Peralihan dari Gemini 1.0 dan 1.5 ke Gemini 2.0 mencerminkan fokus untuk membuat AI lebih membantu secara aktif. memungkinkan model untuk menafsirkan beragam masukan.
Menurut pengumuman resmi, “Sejak Desember lalu ketika kami meluncurkan Gemini 1.0, jutaan pengembang telah menggunakan Google AI Studio dan Vertex AI untuk membangun dengan Gemini dalam 109 bahasa,”yang menunjukkan daya tarik platform yang luas.
Pengalaman tersebut mendasari pembuatan Gemini 2.0, sebuah model yang tidak hanya memproses informasi dengan lebih cepat namun juga memahami apa yang harus dilakukan selanjutnya, cara menggunakan alat eksternal, dan cara untuk melampaui penalaran pasif.
[konten tersemat]
Maju dengan Gemini 2.0 Flash dan Riset Mendalam
Pusat untuk Gemini Kemampuan 2.0 adalah Gemini 2.0 Flash, model eksperimental yang meningkatkan kinerja dan kecepatan 1.5 Pro sekaligus memberikan keluaran multimodal dan penggunaan alat asli.
Desainnya yang fleksibel memungkinkannya menghasilkan gambar yang dipadukan dengan teks, menghasilkan multibahasa audio text-to-speech, dan secara asli menggunakan sumber daya seperti Google Penelusuran, eksekusi kode, dan API pihak ketiga.
“Kemampuan tindakan antarmuka pengguna asli Gemini 2.0 Flash, serta peningkatan lainnya seperti penalaran multimodal , pemahaman konteks yang panjang, mengikuti dan merencanakan instruksi yang rumit, pemanggilan fungsi komposisional, penggunaan alat asli, dan peningkatan latensi, semuanya bekerja bersama untuk memungkinkan pengalaman agen kelas baru,”kata Google tentang pembaruan tersebut.
[konten tersemat]
Tolok Ukur Flash Gemini 2.0
Dalam hasil benchmark yang ditunjukkan oleh Google, Eksperimental Flash Gemini 2.0 menunjukkan peningkatan kinerja secara keseluruhan di berbagai rentang tolok ukur yang menantang jika dibandingkan dengan pendahulunya, Gemini 1.5 Flash O02 dan Gemini 1.5 Pro O02.
Secara khusus, ia memperoleh keuntungan besar dalam tugas terkait kode seperti Natural2Code, yang mencapai 92,9% versus 85,4% untuk 1,5 Pro dan 79,8% untuk 1,5 Flash, serta dalam tolok ukur matematika dan penalaran yang sulit, termasuk HiddenMath, yang memperoleh skor 63,0%, mengungguli 1,5 Pro sebesar 52,0%.
Ini juga melampaui pendahulunya dalam pemahaman multimodal, meningkatkan hasil dalam pengujian gambar dan video serta mempertahankan keunggulan yang kuat dalam pengetahuan umum (MMLU-Pro) dan tugas penalaran ( GPQA).
Meskipun ada ada beberapa area yang tidak mengalami peningkatan secara konsisten—seperti MRCR konteks panjang (1 juta), tertinggal 82,6% dari 1.5 Pro—data menunjukkan bahwa Gemini 2.0 Flash Experimental secara umum merupakan model terkuat, menunjukkan kemajuan berarti dalam pembuatan kode, penalaran kompleks, dan pemahaman multimodal.
Yang baru Multimodal Live API mendukung audio dan video real-time streaming masukan, memberdayakan pengembang untuk membangun aplikasi dinamis dan sadar konteks yang merespons skenario yang berkembang dengan lancar.
Gemini Kemampuan 2.0 juga disalurkan ke fitur-fitur baru yang dirancang untuk membantu pengguna menavigasi dan mensintesis informasi yang kompleks.
Salah satu fitur tersebut adalah Deep Research, yang kini tersedia di Gemini Advanced. Penelitian Mendalam memanfaatkan pemahaman dan alasan konteks panjang model untuk bertindak sebagai asisten peneliti, mengeksplorasi hal-hal rumit topik dan menyusun laporan.
Daripada mengharapkan pengguna untuk menyaring sumber yang berbeda, Gemini 2.0 bertujuan untuk menyederhanakan proses dengan bertindak sebagai mitra proaktif yang mengumpulkan, mengatur, dan memberikan wawasan dalam sebuah cara yang kohesif.
Mentransformasi Google Penelusuran dengan Penalaran yang Disempurnakan
Pengaruh Gemini 2.0 meluas ke produk inti Google, terutama Google Penelusuran. Pichai menyoroti bagaimana Ikhtisar AI perusahaan telah menjangkau satu miliar pengguna, memungkinkan orang mengajukan jenis pertanyaan yang benar-benar baru dan menjadikannya salah satu fitur paling populer yang diperkenalkan ke Penelusuran.
“Tidak ada produk yang mengalami transformasi lebih besar dari ini dengan AI daripada Pencarian. Ikhtisar AI kami kini menjangkau 1 miliar orang, memungkinkan mereka mengajukan jenis pertanyaan yang benar-benar baru — dengan cepat menjadi salah satu fitur Penelusuran kami yang paling populer,”katanya.
Dengan kemampuan penalaran canggih Gemini 2.0, Ikhtisar AI kini dapat menangani topik yang lebih kompleks, menyelesaikan soal matematika multi-langkah, menangani kueri multimodal, dan bahkan menjawab pertanyaan terkait pengkodean. Pengujian terbatas terhadap Ikhtisar AI yang diperkaya ini telah dimulai, dengan ketersediaan yang lebih luas direncanakan pada awal tahun depan.
Dalam Selami: Bagaimana Model o1 Baru OpenAI Menipu Manusia Secara Strategis
Meningkatkan Kinerja dengan TPU Trillium
Di balik peningkatan kemampuan Gemini 2.0 terdapat satu dekade investasi penelitian dan rekayasa. Model ini dilatih dan dijalankan sepenuhnya pada Trillium, TPU generasi keenam Google, yang kini tersedia bagi pelanggan untuk proyek mereka sendiri.
Dengan mempertahankan tumpukan penuh Dengan pendekatan ini, Google dapat merancang perangkat keras dan perangkat lunak yang disesuaikan secara optimal, memastikan bahwa peningkatan kinerja dan eksperimen cepat diterjemahkan dengan cepat menjadi penyempurnaan praktis.
Pendekatan terintegrasi ini berarti pengembang dapat memperoleh manfaat dari infrastruktur yang stabil dan terukur yang mendukung era baru agenik model, sehingga membebaskan mereka untuk fokus dalam membangun fitur dan aplikasi bernilai tinggi dibandingkan mengelola kompleksitas teknis tingkat rendah.
Terkait: Modul Fiber Optics IBM Baru Dapat Mempercepat Pelatihan Model AI sebesar 300%
Proyek Astra: Asisten Universal dalam Pembuatan
Salah satu prototipe penelitian yang menggambarkan ambisi Gemini 2.0 adalah Project Astra, yang diperkenalkan di Google I/O 2024 dan kini menggabungkan Gemini 2.0.
Astra bertujuan untuk berfungsi sebagai asisten universal, memahami berbagai bahasa dan aksen, mengingat preferensi pengguna, dan menggunakan Google Penelusuran, Lens, dan Maps untuk memberikan jawaban yang relevan secara kontekstual.
[konten tersemat]
Ini dapat menangani memori dalam sesi hingga 10 menit, memungkinkan interaksi yang lebih personal dan berkelanjutan. Penguji tepercaya telah menggunakan Astra di ponsel Android untuk memandu peningkatan, dan Google berencana untuk menghadirkan kemampuannya ke lebih banyak perangkat, termasuk kacamata prototipe.
Dengan menggabungkan pemahaman multimodal, penggunaan alat, dan respons latensi rendah, Astra memberikan contoh bagaimana fitur agen Gemini 2.0 dapat membentuk asisten AI masa depan yang beradaptasi dengan kebutuhan dan preferensi pengguna secara real-time.
Terkait: Pemesanan Tabel Phantom AI Siri Membuat Kekacauan
Project Mariner: Menavigasi Web dengan Model Agen
Gemini 2.0 juga mendukung Project Mariner, sebuah prototipe penelitian awal yang bereksperimen dengan bagaimana agen AI dapat beroperasi secara langsung di browser. Mariner dapat memahami piksel dan elemen pada halaman web—seperti teks, kode, gambar, dan formulir—dan menggunakan pemahaman tersebut untuk menyelesaikan tugas.
[konten tersemat]
Dapat mengambil data, menjelajahi situs web, mengisi formulir, dan bahkan menyusun keranjang belanja, meskipun hal ini memerlukan konfirmasi pengguna sebelum menyelesaikan pembelian. Meskipun masih dalam tahap awal dan terkadang lambat dalam menyelesaikan tugas, Mariner menyarankan masa depan di mana agen dapat menangani tugas online dan alur kerja yang kompleks.
Kemungkinan ini merupakan demonstrasi nyata tentang bagaimana kemampuan perencanaan dan penalaran Gemini 2.0 dapat diperluas melampaui percakapan dan bantuan navigasi, ekstraksi data, dan penelitian otomatis.
Terkait: Startup Paris Debut Agen AI Runner H Untuk Menantang OpenAI, Anthropic, Google, dan Microsoft
Jules: Mengotomatiskan Pemeliharaan Perangkat Lunak untuk Pengembang
Kemampuan agen meluas ke pengembangan perangkat lunak melalui Jules, agen pengkodean bertenaga AI yang terintegrasi langsung ke alur kerja GitHub. Jules dapat menafsirkan instruksi pengembang, mengatasi masalah, merencanakan dan melaksanakan perbaikan, lalu menunggu tinjauan manusia sebelum menggabungkan perubahan kembali ke basis kode utama.
Kathy Korevec, direktur manajemen produk di Google Labs, menjelaskan kegunaan Jules: “Ini sangat bagus dalam perbaikan bug, fitur-fitur kecil, hal-hal seperti itu, Anda hampir dapat menganggapnya seperti seorang insinyur junior dan Anda berada di sana mengarahkannya.”
Dia menambahkan: “Saya tidak melakukannya menjadi insinyur perangkat lunak karena Saya bermimpi setiap hari untuk memperbaiki bug, itu bukan ambisi saya, saya ingin membuat aplikasi yang sangat keren dan kreatif. Hal yang menyenangkan tentang Jules adalah saya dapat mengatakan’Hei, perbaiki bug ini untuk saya.'”Pendekatan ini bisa gratis pengembang manusia dari pekerjaan pemeliharaan yang membosankan, memungkinkan mereka fokus pada kreativitas, inovasi, dan masalah yang lebih menantang.
Terkait: Cognition.ai Meluncurkan Devin AI Software Engineer seharga $500/bulan
Agen dalam Game dan Dunia Fisik
Tradisi Google DeepMind dalam melatih AI dengan game berlanjut di bawah Gemini 2.0. Lingkungan game menawarkan tahap terkendali bagi model untuk mempelajari perencanaan, logika, dan mengikuti aturan.
Agen yang dibangun di Gemini 2.0 dapat menavigasi dunia virtual, menafsirkan instruksi, dan memberikan saran real-time, sehingga berpotensi meningkatkan gameplay dan memperluas cakrawala pengalaman pemain.
Kolaborasi dengan pengembang seperti Supercell membantu mengevaluasi bagaimana agen-agen ini berperilaku berbeda-beda genre, mulai dari game strategi seperti “Clash of Clans”hingga simulator bertani seperti “Hay Day”.
Terkait: Studi: Karakter AI Minecraft Menunjukkan Dinamika Budaya Mirip Manusia
Karena agen ini juga dapat mengakses pengetahuan eksternal melalui Google Penelusuran, mereka mungkin menjembatani lingkungan khusus game dan web yang lebih luas, menawarkan wawasan dan panduan yang tepat waktu kepada pemain.
Eksperimen juga meluas ke robotika, di mana Gemini Kemampuan penalaran spasial 2.0 mungkin salah satunya hari memungkinkan agen untuk membantu di dunia fisik.
Meskipun masih dalam tahap awal dan eksperimental, janji dukungan berbasis AI dalam lingkungan nyata menunjukkan jalan menuju sistem yang dapat berinteraksi dengan aman dan bermanfaat di luar lingkungan virtual, yang mungkin membantu dalam tugas dan layanan dunia nyata.
[konten tersemat]
Membangun Risiko yang Bertanggung Jawab dan Memitigasi
Sebagai keluasan dan kekuatan agen Gemini 2.0 modelnya berkembang, begitu pula penekanan Google pada tanggung jawab, keselamatan, dan etika. Perusahaan mencatat bahwa teknologi baru ini membuka pertanyaan baru tentang keselamatan, keamanan, dan perilaku.
Tanggung jawab internal dan Komite Keselamatan (RSC) dan pendekatan tim merah yang dibantu AI diterapkan selama pengembangan untuk mengidentifikasi dan memitigasi risiko. Kompleksitas keluaran multimodal menuntut evaluasi dan pelatihan keselamatan yang berkelanjutan.
Terkait: Para Ekonom UE Melihat AI sebagai “Kegagalan Pasar”; Mendesak Model Pencapaian Dana Publik
Dengan Project Astra, Google berupaya mencegah kebocoran informasi sensitif, dan dengan Project Mariner, Google memastikan bahwa agen menghormati instruksi pengguna atas suntikan cepat berbahaya yang disembunyikan di sumber eksternal.
Tujuannya adalah untuk menjaga pengguna manusia memegang kendali sekaligus melindungi mereka dari penipuan, phishing, atau bentuk penyalahgunaan lainnya. Dengan terus menyempurnakan proses, berkonsultasi dengan pakar eksternal, dan melakukan pengujian yang ketat, Google berharap dapat mencapai keseimbangan yang cermat antara inovasi dan menjaga kepercayaan pengguna.
Menuju AGI dan Beyond
Gemini 2.0 berdiri sebagai tonggak sejarah dalam perjalanan menuju AI yang lebih umum dan adaptif—sebuah aspirasi yang terkadang dikaitkan dengan konsep Artificial General Intelligence (AGI).
Sementara itu masih dalam tahap eksplorasi Pada tahap ini, kemampuan yang ditunjukkan oleh Gemini 2.0 dan prototipe penelitiannya mengarah ke masa depan di mana agen AI dapat menangani tugas-tugas yang semakin kompleks, berintegrasi dengan lancar ke dalam kehidupan sehari-hari, dan memberdayakan pengguna untuk mencapai lebih banyak hal.
Dengan setiap iterasi, Google menyempurnakan sinergi antara kemampuan komputasi mentah, pemahaman multimodal, dan perilaku agen, meletakkan dasar bagi evolusi berkelanjutan dalam cara manusia berinteraksi dengan mesin.
Dalam hal ini, Gemini 2.0 bukan sekadar rilis model lain, namun sebuah rilis model baru. langkah yang berarti mengubah cara informasi diproses, cara menyelesaikan tugas, dan bagaimana AI dapat berfungsi sebagai mitra tepercaya.
Dari meningkatkan pengalaman penelusuran bagi satu miliar pengguna hingga memungkinkan penelitian, pengembangan, dan navigasi yang lebih mandiri, kemampuan ini diperkenalkan hari ini menunjukkan bahwa era keagenan baru benar-benar dimulai.