Meta telah merilis V-JEPA 2, sistem AI canggih yang belajar dari video, dalam dorongan strategis untuk memberikan robot bentuk akal sehat fisik. Perusahaan mengumumkan pada 11 Juni bahwa”model dunia”open-source dirancang untuk memahami dan memprediksi interaksi dunia nyata, langkah penting menuju membangun agen cerdas yang lebih mampu dan adaptif.
Langkah ini memposisikan meta secara langsung terhadap saingan seperti Google dan lab khusus lainnya dalam perlombaan yang semakin kompetitif untuk membuat AI yang diwujud. Dengan membangun simulasi realitas internal, model-model ini memungkinkan AI untuk”berpikir”sebelum bertindak, merencanakan tugas-tugas kompleks dengan cara yang lebih seperti manusia. Untuk meta, proyek ini adalah bagian penting dari visi jangka panjangnya untuk kecerdasan mesin canggih, dengan aplikasi potensial mulai dari robotika industri hingga kacamata realitas augmented perusahaan telah lama berkembang.
Apa itu model dunia?
Inti dari strategi Meta adalah konsep”model dunia,”jenis sistem AI generatif yang mempelajari representasi internal suatu lingkungan, termasuk fisika dan dinamika spasialnya. Tidak seperti model bahasa besar yang memprediksi kata berikutnya dalam sebuah kalimat, model dunia berusaha untuk memprediksi keadaan dunia di masa depan itu sendiri. Model dunia mengamati lingkungannya dan mengantisipasi apa yang mungkin terjadi selanjutnya, tugas yang jauh lebih kompleks daripada prediksi berbasis teks.
Kemampuan ini memungkinkan mesin untuk mensimulasikan tindakan potensial dan konsekuensinya secara internal sebelum mencobanya dalam kenyataan. Juan Bernabé-Moreno, Direktur Penelitian IBM di Eropa,
Ini secara dramatis mempercepat pembelajaran dan meningkatkan keselamatan, membuka jalan untuk merobek-robot yang dapat menavigasi lingkungan manusia yang tidak dapat diketahui. Belajar
Kecerdasan V-Jepa 2 ditempa dalam proses pelatihan dua tahap. Pertama, ini membangun pemahaman mendasar tentang dunia dengan menganalisis set data besar lebih dari satu juta jam video dan satu juta gambar. Arsitekturnya, yang dikenal sebagai arsitektur prediktif yang menanamkan bersama (JEPA), belajar dengan memprediksi bagian-bagian yang hilang atau bertopeng video dalam ruang konseptual abstrak, daripada mencoba merekonstruksi setiap pixel. Efisiensi ini memungkinkan model untuk fokus pada pembelajaran konsep tingkat tinggi tentang interaksi dan gerakan objek. Tahap kedua membuat model ini berguna untuk robotika. Di sini, ini disesuaikan dengan data yang dikondisikan aksi, menggunakan hanya 62 jam input video dan kontrol dari Dataset droid open-source . Ini mengajarkan model untuk menghubungkan tindakan spesifik dengan hasil fisik mereka, menghasilkan sistem yang, menurut meta, dapat digunakan untuk”perencanaan robot nol-shot untuk berinteraksi dengan objek yang tidak dikenal di lingkungan baru.” However, a technical analysis of the first V-JEPA noted that its reliance on very short video clips could limit its ability to understand complex, long-term interactions, a challenge that more advanced world models will need to overcome. Pengumuman meta tidak terjadi dalam ruang hampa. Dorongan untuk membuat model dasar untuk robotika adalah medan pertempuran utama untuk laboratorium teknologi utama. Pada bulan Maret, Google DeepMind meluncurkan model robotika Gemini-nya, yang juga mengintegrasikan visi, bahasa, dan tindakan untuk memungkinkan robot belajar dengan pelatihan minimal. Teknologi komplementer yang kritis adalah simulasi hiper-realistis. Platform seperti Genesis AI Simulator dapat dengan cepat mensimulasikan lingkungan fisik yang sangat penting untuk melatih model-model ini dengan aman dan efisien. Jim Fan, seorang peneliti yang terlibat dengan proyek ini, dengan jelas menggambarkan kekuatannya:”Satu jam waktu komputasi memberikan robot 10 tahun pengalaman pelatihan. Ini menyoroti fokus di seluruh industri untuk mengatasi hambatan data yang diperlukan untuk melatih AI untuk variasi dunia fisik yang hampir tak terbatas. Sesuai dengan strategi terbaru dalam AI, Meta melepaskan V-JEPA 2 dan yang terkait sebagai Open-Sor-So-soal. Kode model adalah tersedia di github , dengan pos pemeriksaan dapat diakses pada wajah memeluk . Dengan membuat teknologi tersedia secara luas, Meta berharap dapat menumbuhkan komunitas yang dapat mempercepat kemajuan. Namun, pengembang yang mencari integrasi yang mudah mungkin menghadapi rintangan, karena diskusi masyarakat di github menunjukkan ada saat ini tidak ada yang memiliki apa-apa, API-friendly-friendly api Uji dengan ketat seberapa baik model AI tentang fisika. Dalam pengumumannya, Meta mencatat kesenjangan kinerja yang signifikan antara manusia dan bahkan model-model top pada tugas-tugas ini, menyoroti arah yang jelas untuk perbaikan yang diperlukan. Kemajuan terhadap tolok ukur ini dapat dilacak pada target leadingface”href=fomition_board”fomition”leading_board”Belajar A Bidang kecerdasan fisik yang ramai
pendekatan terbuka untuk masalah yang sulit
Strategi terbuka meta, dikombinasikan dengan pembandingan publik dari keterbatasan modelnya, menggarisbawahi kesulitan besar dari tugas di depan. Sementara V-Jepa 2 adalah langkah yang signifikan, itu juga menerangi jalan panjang menuju menciptakan jenis kecerdasan mesin canggih yang dapat dengan mulus menavigasi dan berinteraksi dengan dunia fisik kita yang kompleks.