Google DeepMind telah memulai inisiatif baru untuk menciptakan sistem kecerdasan buatan (AI) canggih yang mampu menyimulasikan lingkungan fisik dan virtual.
Tim Brooks, mantan peneliti di OpenAI, kini memimpin upaya tersebut, yang berfokus pada tentang “model dunia”—sistem AI yang dirancang untuk memprediksi dan berinteraksi dengan dinamika dunia nyata. Dalam postingannya di X, Brooks menyatakan, “DeepMind memiliki rencana ambisius untuk membuat model generatif besar-besaran yang menyimulasikan dunia.”
Proyek ini terkait erat dengan Strategi Google yang lebih besar untuk memajukan kecerdasan umum buatan (AGI). Model dunia dipandang sebagai langkah mendasar dalam mencapai AGI, suatu bentuk AI yang mampu melakukan tugas intelektual apa pun yang dapat dilakukan manusia.
Tim baru akan berkolaborasi dengan proyek DeepMind yang sudah ada, termasuk AI multimodal Gemini model, platform pembuatan video Veo, dan Genie, generator lingkungan untuk simulasi 3D interaktif.
DeepMind memiliki rencana ambisius untuk membuat model generatif besar-besaran yang menyimulasikan dunia. Saya sedang merekrut tim baru dengan misi ini. Mari membangun bersama kami!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
— Tim Brooks (@_tim_brooks) 6 Januari 2025
Pemodelan Dunia AI
Model dunia menunjukkan perubahan signifikan dari sistem AI tradisional, yang terutama bereaksi terhadap masukan data. Sebaliknya, model ini mensimulasikan lingkungan yang kompleks dengan menganalisis data multimodal, seperti teks, gambar, dan video. Kemampuan prediktif ini memungkinkan penerapan di berbagai bidang, mulai dari pelatihan robotika hingga permainan interaktif.
deskripsi pekerjaan untuk tim baru ini menyoroti tujuan yang lebih luas: “Kami percaya bahwa peningkatan pra-pelatihan pada video dan data multimodal berada pada jalur penting menuju kecerdasan umum buatan. Model dunia akan mendukung berbagai bidang, seperti penalaran dan simulasi visual, perencanaan untuk agen yang diwujudkan, dan hiburan interaktif real-time.”
Dengan mensimulasikan dinamika dunia nyata, model dunia menyediakan kotak pasir virtual untuk pengujian dan pembelajaran, meningkatkan kemampuan AI untuk beradaptasi dan merespons dalam skenario dunia nyata.
Proyek Genie DeepMind menawarkan sekilas berbagai kemungkinan. Diluncurkan pada bulan Desember, Genie 2 dapat menghasilkan dunia 3D yang dapat dimainkan berdasarkan pengguna Demonstrasinya mencakup simulasi ekspedisi berlayar dan bertema cyberpunk Western, yang menunjukkan keserbagunaan platform dalam menciptakan lingkungan interaktif.
Demo simulasi AI frame-by-frame interaktif yang dibuat dengan Google Genie 2 (Sumber: Google)
Pekerjaan pada model dunia pada dasarnya kompleks, membutuhkan infrastruktur mutakhir dan sumber daya komputasi yang besar. Tawaran pekerjaan DeepMind untuk peran Insinyur Riset dalam pemodelan dunia menguraikan tantangan teknis yang ada. Tanggung jawabnya meliputi:
Melatih transformator multimoda skala besar yang mampu menganalisis beragam jenis data. Membangun infrastruktur untuk saluran data video, memastikan kurasi dan anotasi yang efisien. Mengoptimalkan sistem inferensi untuk aplikasi waktu nyata, memungkinkan interaktivitas yang lancar. Mengembangkan metrik evaluasi kuantitatif untuk mengukur akurasi fisik dan kecerdasan. Menjelajahi transformator konteks ultra-panjang, yang memungkinkan AI menganalisis rangkaian data yang diperluas.
Penekanan pada penskalaan mencerminkan komitmen untuk membuat sistem ini kuat dan efisien. Filosofi DeepMind, yang dirangkum sebagai tanggung jawab utama dalam deskripsi pekerjaan, menggarisbawahi pendekatan ini:
“Menerapkan infrastruktur inti dan melakukan penelitian untuk membangun model generatif dunia fisik. Memecahkan masalah penting untuk melatih simulator dunia dalam skala besar, mengembangkan metrik dan undang-undang penskalaan untuk kecerdasan fisik, menyusun dan memberi anotasi pada data pelatihan, memungkinkan pembuatan interaktif waktu nyata, dan mempelajari integrasi model dunia dengan model bahasa multimodal. Rangkullah pelajaran pahit ini dan carilah metode sederhana yang dapat diperluas, dengan penekanan pada sistem dan infrastruktur yang kuat.”
Aplikasi dan Implikasi
Model dunia memiliki penerapan yang beragam di seluruh dunia Dalam industri robotik, mereka memungkinkan terciptanya lingkungan virtual tempat mesin dapat belajar menavigasi dan memanipulasi objek. Hal ini mengurangi waktu dan biaya pengujian fisik Universitas Carnegie Mellon dan peneliti industri swasta, menunjukkan bagaimana sistem AI dapat dilatih untuk fisika 3D di lingkungan virtual dengan jauh lebih cepat dibandingkan di dunia nyata.
Dalam game, model dunia menciptakan pengalaman yang imersif dengan lingkungan yang dinamis dan responsif. Teknologi ini juga memiliki potensi dalam bidang kesehatan , dimana simulasi dapat membantu dalam diagnosis dan perencanaan perawatan yang dipersonalisasi.
Meskipun menjanjikan, kemajuan ini memiliki tantangan tersendiri. Animation Guild memperkirakan bahwa lebih dari 100.000 pekerjaan di bidang film, televisi, dan animasi di AS akan terkena dampak teknologi AI pada tahun 2026.
Masalah hukum juga muncul, karena beberapa model dunia mengandalkan rekaman video game tanpa izin untuk pelatihan. Meskipun Google menegaskan bahwa praktiknya mematuhi persyaratan layanan YouTube, Google belum mengungkapkan sumber data spesifik.
Persaingan di Ruang AI
Posisi inisiatif DeepMind Google dalam perlombaan kompetitif dengan pemain besar lainnya. Platform Cosmos baru Nvidia berfokus pada AI fisik dan robotika, sementara Fei-Fei Li’s World Labs mengembangkan model dunia berskala besar dengan kecerdasan spasial untuk aplikasi yang beragam. Startup seperti Odyssey dan Decart juga menghasilkan kemajuannya, berkontribusi pada bidang simulasi dunia AI yang berkembang.
Akses DeepMind ke Gemini AI, Veo, dan Genie menawarkan keuntungan unik. Dengan mengintegrasikan sistem ini, tim bertujuan untuk menciptakan AI yang tidak hanya memprediksi hasil tetapi juga beradaptasi terhadap perubahan skenario secara real-time. Kemampuan ini sangat penting untuk mencapai AGI, di mana kemampuan beradaptasi dan generalisasi adalah kuncinya.
Visi DeepMind untuk AGI
Meskipun kecerdasan umum buatan masih jauh namun dapat dicapai tujuan, model dunia adalah langkah penting dalam jalur ini. Dengan menyimulasikan lingkungan fisik dan virtual, model-model ini memberikan landasan bagi sistem AI yang dapat berpikir, merencanakan, dan berinteraksi seperti manusia.
Deskripsi tugas Research Engineer menangkap inti dari visi DeepMind: “Model dunia akan memberi kekuatan berbagai domain, seperti penalaran dan simulasi visual, perencanaan untuk agen yang diwujudkan, dan hiburan interaktif real-time.”