Google DeepMind ha rivelato Genie 3, un nuovo modello AI che crea mondi 3D giocabili da semplici comandi di testo. Annunciato martedì, il sistema crea questi ambienti interattivi in tempo reale, un importante passo avanti rispetto alla sua versione precedente.
Questa mossa segnala un’accelerazione strategica nella corsa per costruire modelli di fondi mondiali. DeepMind vede questa tecnologia come una parte fondamentale del suo percorso verso l’intelligenza generale artificiale (AGI). Testando gli agenti in innumerevoli nuovi mondi, il laboratorio mira a costruire AI in grado di gestire compiti complessi del mondo reale.
L’annuncio segue la formazione di un team di modelli mondiali specializzato a DeepMind all’inizio di quest’anno. It underscores a clear commitment to creating AI that understands and simulates physical reality, with future applications in gaming, design, and robotics.
From Seconds to Minutes: un salto nella generazione mondiale in tempo reale
Genie 3 rappresenta un salto tecnico significativo sul suo predecessore, Genie 2, passando da una promettente prova di concetto a una piattaforma molto più capace. Il nuovo modello genera mondi interattivi con risoluzione 720p, un importante aggiornamento dall’output a 360p del suo precursore. Funziona anche a un frame fluido 24 al secondo, rendendo l’esperienza in tempo reale più liscia e più coinvolgente.
Forse il progresso più critico è il tempo di interazione estesa. Mentre le simulazioni di Genie 2 hanno spesso iniziato a mostrare artefatti visivi e degradarsi dopo soli 10-20 secondi, Genie 3 può sostenere un mondo coerente e visivamente coerente per”diversi minuti”,
Un’innovazione principale in questa versione è ciò che il laboratorio chiama”eventi mondiali pronti”. Questa funzione consente a un utente di modificare dinamicamente la simulazione con nuovi comandi di testo dopo la creazione del mondo iniziale. Ad esempio, un utente potrebbe esplorare un ambiente generato e quindi emettere un comando per introdurre un branco di cervi o cambiare improvvisamente le condizioni meteorologiche, che il modello eseguirà in tempo reale. come hanno spiegato i ricercatori di DeepMind,”Eventi del mondo rapidi, consentono di cambiare il mondo generato, come alterare le condizioni meteorologiche o introdurre nuovi oggetti e personaggi, migliorare l’esperienza dalla navigazione.”Ciò trasforma la simulazione da uno spazio statico in un reattivo ed modificabile, un passo cruciale per creare scenari più complessi e utili. alla base di questi miglioramenti è una maggiore capacità di mantenere la coerenza ambientale, una famigerata sfida per i modelli mondiali generativi. DeepMind lo definisce una”capacità emergente”, in cui il modello ricorda elementi fuori schermo fino a un minuto. Ciò impedisce ai cronometri visivi stonanti che modelli precedenti come oasis di Decart , che spesso ha perso la traccia delle scene. è fondamentale per il suo successo. Shlomi Fruchter, un direttore della ricerca di Google DeepMind, lo ha descritto come il”primo modello mondiale per scopi generali interattivi in tempo reale.” Ha spiegato ulteriormente i meccanici, affermando:”Il modello è auto-grassivo, il che significa che genera un frame alla volta. Deve guardare indietro a ciò che è stato generato prima di decidere cosa succederà dopo.”Questo processo sequenziale e basato sulla memoria è ciò che consente a Genie 3 di costruire una comprensione intuitiva e costante della fisica senza fare affidamento su un motore con codice duro. mentre la prospettiva di generare mondi di videogiochi è il volo, ma è chiaro che non è chiaro che non è il fondo di consumo 3 di Strong. Ricerca AI. Il laboratorio posiziona il modello come strumento critico per la formazione di agenti di intelligenza artificiale incorporati: sistemi come robot o avatar virtuali progettati per operare in spazi fisici. L’obiettivo finale è accelerare il progresso verso l’intelligence generale artificiale (AGI) risolvendo uno dei suoi principali sfide: insegnare a una durata di lunga data. Collo di bottiglia in robotica e sviluppo dell’intelligenza artificiale. Gli agenti di allenamento nel mondo reale sono lenti, costosi e potenzialmente pericolosi. Modelli mondiali come Genie 3 offrono una soluzione fornendo una sandbox sicura, scalabile e infinitamente variabile per l’apprendimento. Jack Parker-Holder, un ricercatore sul team di apertura di DeepMind, ha sottolineato questa strategia, affermiamo:”Pensiamo che i modelli mondiali siano fondamentali per l’AGI, specificamente per gli agenti incorporati, dove simulano i scenari reali che sono particolarmente sfidanti.”Varietà di scenari”what if”, Genie 3 può essere utilizzata per insegnare ai sistemi di intelligenza artificiale come gestire situazioni non coperte nella loro formazione iniziale. Ad esempio, come osservato dal direttore della ricerca di DeepMind, potrebbe essere usato per addestrare un’auto a guida autonoma su come reagire a un pedone che appare improvvisamente, senza mai aver bisogno di rischiare una collisione del mondo reale. Questa capacità di simulare il controfazzimento, permette a un agente, permette a un agente di approfondimento Genie 3 con il suo SIMA Agent . Nelle dimostrazioni, all’agente hanno ricevuto obiettivi distinti e ha dovuto raggiungerli inviando comandi di navigazione a Genie 3. Il modello mondiale, ignaro dell’obiettivo dell’agente, avrebbe semplicemente simulato le conseguenze fisiche di tali azioni, costringendo Sima a pianificare ed eseguire una sequenza più lunga di azioni per avere successo. Questo diventa un terreno di addestramento ideale in cui gli agenti vengono spinti ai loro limiti, costretti a lottare e migliorare attraverso prove ed errori in un modo che rispecchia il modo in cui gli umani apprendono. Questa strategia mette Google in diretta concorrenza con rivali come Meta, che sta sviluppando i suoi modelli mondiali come V-Jepa 2 per la robotica. La convinzione sottostante condivisa in tutto il settore è che un’intelligenza artificiale deve prima imparare a”pensare”e pianificare all’interno di un’accurata simulazione interna della realtà prima che si possa fidare di agire in modo affidabile nel mondo fisico. Nonostante i progressi, Parker-Holder ha offerto un’analogia avvincente per inquadrare quanto il campo deve ancora andare. Ha suggerito che l’industria non ha ancora avuto il suo”mossa 37 momento per agenti incorporati”, dove possono effettivamente”intraprendere nuove azioni nel mondo reale”. Questo si riferisce alla mossa notoriamente non convenzionale e brillante dell’Alphago di DeepMind che ha segnalato un nuovo paradigma di intelligenza macchina. Per l’IA incorporata, un momento del genere rimane il massimo, ancora da raggiungere, che i modelli mondiali come Genie 3 siano progettati per un giorno abilita. Il modello viene rilasciato come”anteprima di ricerca limitata”a un piccolo gruppo di accademici e creatori, non il pubblico in generale. Questo approccio cauto riflette la fase nascente della tecnologia. Le limitazioni chiave includono uno spazio di azione limitato per gli agenti all’interno della simulazione. Inoltre, il modello lotta con il testo accuratamente rendering e non può ancora simulare interazioni complesse tra più agenti indipendenti, come dettagliato nella sua documentazione. La durata delle simulazioni, sebbene migliorata, è ancora lontana dalle ore necessarie per una formazione completa degli agenti. Fruchter ha riconosciuto la strada da percorrere, osservando:”Ci sono molte cose che devono accadere prima che un modello possa essere distribuito nel mondo reale, ma lo vediamo come un modo per formare più efficiente i modelli e aumentare la loro affidabilità”. Ciò evidenzia l’attuale ruolo del modello come strumento di ricerca piuttosto che un prodotto distribuibile. Questo rilascio misurato consente a DeepMind di raccogliere feedback e comprendere meglio i rischi associati a strumenti generativi così potenti. Sottolinea le immense sfide tecniche che rimangono nella costruzione dell’IA che possono davvero rispecchiare la complessità del nostro mondo. Il percorso verso l’AGI: un terreno di addestramento per AI più intelligente