Meta a lansat V-Jepa 2, un sistem AI avansat care învață din video, într-o apăsare strategică pentru a oferi roboților o formă de bun simț fizic. Compania a anunțat pe 11 iunie că „Modelul mondial” open-source este conceput pentru a înțelege și prezice interacțiunile din lumea reală, un pas critic către construirea de agenți inteligenți mai capabili și adaptativi.
Această mișcare poziționează meta-direct împotriva rivalilor precum Google și alte laboratoare specializate în cursa din ce în ce mai competitivă pentru a crea AI-ul încorporat. Construind o simulare internă a realității, aceste modele permit unui AI să „gândească” înainte ca acesta să acționeze, planificând sarcini complexe într-un mod mai asemănător omului. Pentru meta, proiectul este o parte cheie a viziunii sale pe termen lung pentru informații avansate de mașini, cu potențiale aplicații variind de la robotică industrială până la ochelarii de realitate augmentată, compania se dezvoltă de mult. Modelul reprezintă o evoluție semnificativă din partea predecesorului său V-JEPA. În timp ce acea versiune inițială a stabilit conceptul de bază al învățării din video, acest nou sistem de 1,2 miliarde de parametri este îmbunătățit special pentru planificarea și controlul practic, urmărind să pună la punct decalajul dintre inteligența digitală și lumea fizică.
Care sunt modelele mondiale?
în centrul strategiei meta-ului este conceptul de „model mondial”, un tip de sistem AI generativ care învață reprezentări interne ale unui mediu, inclusiv fizica și dinamica spațială. Spre deosebire de modelele de limbaj mare care prezic următorul cuvânt într-o propoziție, modelele mondiale încearcă să prezică viitoarele stări ale lumii în sine. Un model mondial își observă împrejurimile și anticipează ceea ce s-ar putea întâmpla în continuare, o sarcină mult mai complexă decât predicția bazată pe text.
Această capacitate permite mașinilor să simuleze acțiunile potențiale și consecințele lor intern înainte de a le încerca în realitate. În calitate de Juan Bernabé-moreno, director al IBM Research in Europa, Explicați , „Modelele lumii permit să planifice mișcări și interacțiuni în spații simulate. Reduce încercări și erori costisitoare, atenuează riscurile de siguranță și accelerează învățarea pentru sarcini precum adunarea industrială, logistica depozitului sau robotica orientată către servicii.”
Acest lucru accelerează dramatic învățarea și îmbunătățește siguranța, pavând calea pentru roboți care pot naviga în interiorul mediilor umane imprevizibile. Învață
V-JEPA 2 Inteligența este falsificată într-un proces de formare în două etape. În primul rând, construiește o înțelegere fundamentală a lumii, analizând un set de date masiv de peste un milion de ore de videoclipuri și un milion de imagini.
arhitectura sa, cunoscută sub numele de arhitectură predictivă de încorporare comună (JEPA), învață prin prezicerea porțiunilor lipsă sau mascate de videoclipuri într-un spațiu abstract, conceptual, mai degrabă decât să încerce să reconstruiască fiecare pixel. Această eficiență permite modelului să se concentreze pe învățarea conceptelor la nivel înalt despre interacțiunile obiectului și mișcarea.
A doua etapă face ca modelul să fie util pentru robotică. Aici, este reglat bine cu date condiționate de acțiune, folosind doar 62 de ore de intrări video și de control de la Dataset droid open-source . Acest lucru învață modelul să conecteze acțiuni specifice la rezultatele lor fizice, rezultând un sistem care, potrivit Meta, poate fi utilizat pentru „planificarea robotului cu zero pentru a interacționa cu obiecte necunoscute în medii noi”.
Cu toate acestea, a Analiza tehnică a primului V-Jepa a remarcat faptul că dependența sa pe clipuri video foarte scurte ar putea limita capacitatea sa de a înțelege interacțiuni complexe, pe termen lung, o provocare pe care o vor avea mai multe modele lumii avansate. Câmpul aglomerat de inteligență fizică
Anunțul meta nu se întâmplă în vid. Împingerea de a crea modele fundamentale pentru robotică este un teren de luptă cheie pentru laboratoarele tehnologice majore. În martie, Google DeepMind și-a dezvăluit modelele de robotică Gemini, care integrează în mod similar viziunea, limbajul și acțiunea pentru a permite roboților să învețe cu o pregătire minimă.
Peisaj competitiv pentru a fi înmormântate AI , ca evidență în un sondaj de peisaj competitiv, de asemenea, AI
O tehnologie complementară critică este simularea hiper-realistă. Platforme precum Simulatorul AI Genesis pot simula rapid medii fizice care sunt esențiale pentru formarea acestor modele în siguranță și eficient.
Jim Fan, un cercetător implicat în proiect, a descris în mod viu puterea sa: „O oră de timp de calcul oferă un robot de 10 ani de experiență de antrenament. Așa a fost că Neo a reușit să învețe artele marțiale într-un ochi de ochi în matricea. Acest lucru evidențiază accentul pe întreaga industrie pe depășirea blocajului de date necesar pentru a instrui AI pentru variațiile aproape infinite ale lumii fizice.
O abordare deschisă a unei probleme grele
fidelă strategiei sale recente în AI, Meta eliberează V-Jepa 2 și instrumentele sale asociate ca active deschise. Codul modelului este disponibil pe github , cu puncte de control accesibil pe fața îmbrățișată . Prin faptul că tehnologia este disponibilă pe scară largă, Meta speră să încurajeze o comunitate care poate accelera progresul. Cu toate acestea, dezvoltatorii care caută o integrare ușoară se pot confrunta cu obstacole, așa cum discută discuțiile comunitare pe GitHub indică faptul că în prezent există Fără API dedicat, utilizator-prietenos, de asemenea, a lansat trei noi Benchmarks, proiectat în Rigorly Test Researts, de asemenea, a fost eliberat de trei Benchmarks, de asemenea, a fost proiectat pentru testele Rigoase, dedicate, de asemenea Cât de bine modelează AI despre fizică. In its announcement, Meta noted a significant performance gap between humans and even top models on these tasks, highlighting a clear direction for needed improvement.
Progress against these benchmarks can be tracked on a public Hugging Face Leaderboard for physical Învățarea , oferind o măsură transparentă a cât de aproape este domeniul de a obține o adevărată inteligență fizică.
Strategia deschisă a meta, combinată cu evaluarea publică a limitărilor modelelor sale, subliniază imensa dificultate a sarcinii care urmează. În timp ce V-JEPA 2 este un pas semnificativ, acesta luminează, de asemenea, drumul lung spre crearea tipului de informații avansate de mașini care poate naviga perfect și interacționa cu lumea noastră fizică complexă.