Meta ha rilasciato V-JEPA 2, un sistema AI avanzato che impara dal video, in una spinta strategica per dare ai robot una forma di buon senso fisico. La società ha annunciato l’11 giugno che il”Modello mondiale”open source è progettato per comprendere e prevedere le interazioni del mondo reale, un passo critico verso la costruzione di agenti intelligenti più capaci e adattivi.

Questa mossa posiziona meta direttamente contro rivali come Google e altri laboratori specializzati nella razza sempre più competitiva per creare AI incorporata. Costruendo una simulazione interna della realtà, questi modelli consentono a un’intelligenza artificiale di”pensare”prima che agisca, pianificando compiti complessi in modo più umano. Per Meta, il progetto è una parte fondamentale della sua visione a lungo termine per l’intelligenza automatica avanzata, con potenziali applicazioni che vanno dalla robotica industriale agli occhiali di realtà aumentata che la società ha a lungo sviluppato.

The Href=”https://i.meta.com/blog/v-jepa-2-world-denchmarks/”v-ja Bkate”Il modello rappresenta una significativa evoluzione dal suo predecessore V-Jepa. Mentre quella versione iniziale ha stabilito il concetto di base di apprendimento dal video, questo nuovo sistema di 1,2 miliardi di parametri è specificamente migliorato per la pianificazione e il controllo pratici, con l’obiettivo di colmare il divario tra intelligenza digitale e mondo fisico.

>

Quali sono i modelli mondiali?

Al centro della strategia di Meta è il concetto di”modello mondiale”, un tipo di sistema di intelligenza artificiale generativo che impara le rappresentazioni interne di un ambiente, compresa la sua fisica e le sue dinamiche spaziali. A differenza dei modelli di grandi dimensioni che prevedono la parola successiva in una frase, i modelli mondiali tentano di prevedere i futuri stati del mondo stesso. Un modello mondiale osserva l’ambiente circostante e anticipa ciò che potrebbe accadere in seguito, un compito molto più complesso della previsione basata sul testo.

Questa capacità consente alle macchine di simulare potenziali azioni e le loro conseguenze internamente prima di tenderle nella realtà. Come Juan Bernabé-Moreno, direttore di IBM Research in Europa, spiegati ,”I modelli mondiali consentono a pianificare i movimenti e le interazioni in spazi simulati, spesso chiamati”prima del Digital, in contatto di Digital. Riduce drasticamente costosi prove e errori, mitiga i rischi per la sicurezza e accelera l’apprendimento per attività come l’assemblaggio industriale, la logistica del magazzino o la robotica orientata al servizio.”

Questo accelera drammaticamente V-jaf a v-STRIGHT. Impara

L’intelligenza di V-JEPA 2 è forgiata in un processo di allenamento a due stadi. In primo luogo, costruisce una comprensione fondamentale del mondo analizzando un enorme set di dati di oltre un milione di ore di video e un milione di immagini.

La sua architettura, conosciuta come un’architettura predittiva incorporata (JEPA), apprende prevedendo porzioni mancanti o mascherate da video di video in un astratto, piuttosto che cercare di ricostruire. Questa efficienza consente al modello di concentrarsi sull’apprendimento di concetti di alto livello sulle interazioni e sul movimento degli oggetti.

Il secondo stadio rende il modello utile per la robotica. Qui, è messo a punto con dati climatizzati, utilizzando solo 62 ore di input di video e controllo dal Dataset droid open source . Questo insegna al modello a collegare azioni specifiche ai loro risultati fisici, risultando in un sistema che, secondo Meta, può essere utilizzato per”la pianificazione di robot a scatto zero per interagire con oggetti non familiari in nuovi ambienti”.

Tuttavia, a analisi tecnica del primo v-jepa ha osservato che la sua affidamento su video clip molto brevi potrebbe limitare la sua capacità di comprendere complesso, interazioni a lungo termine, una sfida più avanzata dovrebbe superare.

Un campo affollato di intelligenza fisica

L’annuncio di Meta non si verifica nel vuoto. La spinta a creare modelli di base per la robotica è un campo di battaglia chiave per i principali laboratori tecnologici. A marzo Google DeepMind ha svelato i suoi modelli di robotica Gemelli, che integrano allo stesso modo visione, lingua e azione per consentire ai robot di imparare con una formazione minima.

il disponibile su github , con checkpoint accessibile sulla faccia abbracciata . Rendendo la tecnologia ampiamente disponibile, Meta spera di favorire una comunità in grado di accelerare i progressi. Tuttavia, gli sviluppatori che cercano una facile integrazione possono affrontare ostacoli, poiché le discussioni della comunità su GitHub indicano che attualmente esiste Nessun API dedicato all’utente . Testare rigorosamente quanto bene i modelli di intelligenza artificiale ragionano sulla fisica. Nel suo annuncio, Meta ha notato un significativo divario di prestazioni tra gli umani e persino i migliori modelli su questi compiti, evidenziando una chiara direzione per il miglioramento necessario.

Progressi contro questi benchmark possono essere rintracciati su un , fornendo una misura trasparente di quanto è vicino il campo a raggiungere la vera intelligenza fisica.

La strategia aperta di Meta, combinata con il benchmarking pubblico dei limiti dei suoi modelli, sottolinea l’immensa difficoltà del compito a venire. Mentre V-JEPA 2 è un passo significativo, illumina anche la lunga strada per creare il tipo di intelligenza macchina avanzata che può navigare perfettamente e interagire con il nostro complesso mondo fisico.