NVIDIA ha annunciato diversi progressi nell’intelligenza artificiale al CES 2025, svelando nuovi sviluppi che uniscono i precedenti successi dell’azienda nella generazione di dati sintetici con l’attenzione al processo decisionale autonomo.
Le nuove versioni includono piattaforma Cosmos World Foundation Model (WFM): un kit completo di strumenti per la creazione di video fotorealistici basati sulla fisica e scenari e il Llama Nemotron più le famiglie Cosmos Nemotron, che consentono linguaggio, visione, e intelligenza artificiale decisionale in diversi settori come robotica, sanità e veicoli autonomi.
Correlato: Nvidia presenta le GPU Blackwell RTX serie 50 con DLSS 4 e il doppio della potenza di l’RTX 4090
“Abbiamo creato Cosmos per democratizzare l’intelligenza artificiale fisica e mettere la robotica generale alla portata di ogni sviluppatore”, ha affermato Jensen Huang, fondatore e CEO di NVIDIA.”Gli agenti IA rappresentano il prossimo settore della robotica e costituiranno probabilmente un’opportunità multimiliardaria.”
Unendo sotto un unico ombrello generazione di dati sintetici, elaborazione visiva e modelli linguistici avanzati, NVIDIA aspira a semplificare la transizione da creazione di dati per sistemi di intelligenza artificiale pienamente operativi. Questo approccio segue il successo della serie Nemotron-4 340B, che in precedenza affrontava la carenza di dati di addestramento di alta qualità per modelli linguistici di grandi dimensioni (LLM).
[contenuto incorporato]
A metà del 2024, NVIDIA ha introdotto i modelli Nemotron-4 340B per affrontare la disponibilità limitata di dati per applicazioni IA complesse i modelli hanno prodotto dati sintetici su larga scala, consentendo perfezionamento e adattamento di alto livello per settori come quello sanitario, finanziario e manifatturiero.
Nemotron-4 340B offriva tre varianti: Base, Instruct e I modelli Reward hanno aiutato gli sviluppatori a guidare gli output dell’intelligenza artificiale attraverso direttive chiare, mentre i modelli Reward hanno valutato le risposte generate in base a parametri quali accuratezza e coerenza. Questo meccanismo di feedback iterativo si è rivelato prezioso per l’addestramento di modelli linguistici di grandi dimensioni, accelerando lo sviluppo e migliorando l’affidabilità del modello.
L’iniziativa Nemotron-4 340B si è inoltre integrata perfettamente con la piattaforma NeMo di NVIDIA e la libreria TensorRT-LLM, fornendo agli utenti l’ottimizzazione e flessibilità nei flussi di lavoro basati sull’intelligenza artificiale. I dati sintetici generati da Nemotron-4 340B hanno gettato le basi per le ultime scoperte di NVIDIA nel campo dell’intelligenza artificiale fisica e degli agenti, collegando la cura dei dati, l’addestramento dei modelli e le esigenze di implementazione.
Llama Nemotron e Cosmos Nemotron: in espansione. Agentic AI
Le più recenti offerte NVIDIA nella famiglia Nemotron, Llama Nemotron e Cosmos Nemotron, vanno oltre il semplice generazione di dati per alimentare agenti IA in tempo reale. I modelli linguistici di grandi dimensioni (LLM) di Llama Nemotron si occupano di attività quali codifica, chiamata di funzioni, chat e calcoli matematici, mentre i modelli di linguaggio visivo (VLM) di Cosmos Nemotron si concentrano sull’interpretazione e sulla risposta ai dati visivi in video, immagini e feed di sensori.
“L’intelligenza artificiale è la prossima frontiera dell’intelligenza artificiale sviluppo e la realizzazione di questa opportunità richiede l’ottimizzazione dell’intero stack in un sistema di LLM per fornire agenti IA efficienti e accurati”, ha affermato Ahmad Al-Dahle, vicepresidente e capo di GenAI presso Meta, in una nota.”Attraverso la nostra collaborazione con Nvidia e il nostro impegno condiviso verso modelli aperti, la famiglia Nvidia Llama Nemotron basata su Llama possono aiutare le aziende a creare rapidamente i propri agenti IA personalizzati.”
Architettura AI Nvidia Agentic (Immagine: Nvidia)
Questo approccio su due fronti incorpora NVIDIA NIM specializzato microservizi che gestiscono attività ad alto utilizzo di risorse come la ricerca di video, il riepilogo e l’interpretazione dei sensori. Integrando linguaggio ed elaborazione visiva, gli agenti IA possono gestire una vasta gamma di applicazioni, dalla logistica di magazzino all’analisi di immagini mediche.
Cosmos World Foundation Models
Accanto a le famiglie Llama Nemotron e Cosmos Nemotron, NVIDIA ha lanciato Piattaforma Cosmos World Foundation Model (WFM). Questa nuova piattaforma è specializzata nella generazione di video e ambienti fotorealistici basati sulla fisica per robotica, veicoli autonomi e scenari generali di”IA fisica”. La sua attenzione alle simulazioni realistiche riduce i costi associati alla raccolta e al test di enormi quantità di dati del mondo reale.
“Il momento ChatGPT per la robotica sta arrivando. Come i grandi modelli linguistici, i modelli di fondazione mondiale sono fondamentali per far avanzare lo sviluppo di robot e AV, ma non tutti gli sviluppatori hanno le competenze e le risorse per addestrare i propri”, ha osservato Huang in. il suo discorso di apertura a CES.
Gli sviluppatori possono utilizzare Cosmos WFM per creare scenari su misura, aggiungendo complessità come strade innevate per sistemi AV o pavimenti di magazzini congestionati per test di robotica. Questi set di dati sensibili alla fisica possono perfezionare i modelli esistenti o fungere da risorsa di formazione autonoma. L’azienda ha reso questi modelli disponibili con una licenza a modello aperto, con l’obiettivo di ampliare l’accesso allo sviluppo avanzato dell’intelligenza artificiale.
Accelerare l’intelligenza artificiale fisica attraverso i dati e l’efficienza del calcolo
L’intelligenza artificiale fisica rimane impegnativa dal punto di vista computazionale e richiede dati ad alta fedeltà per simulare il mondo reale. Cosmos affronta queste sfide offrendo una pipeline di elaborazione video accelerata e tokenizzatori video avanzati (disponibili con la licenza per modello aperto di NVIDIA, tramite Hugging Face e GitHub) e NVIDIA NeMo Curator per l’etichettatura e la cura dei dati.
Questa pipeline mira a elaborare grandi quantità di dati video, fino a 20 milioni di ore in 14 giorni utilizzando la piattaforma NVIDIA Blackwell, anziché anni di operazioni legate alla CPU.
Questi miglioramenti in termini di efficienza aiutano le organizzazioni che cercano di sviluppare, testare e perfezionare i propri modelli di intelligenza artificiale senza essere limitati dai vincoli dei dati del mondo reale. Cosmos Tokenizer comprime immagini e video, riducendo i costi generali e preservando la qualità essenziale per l’addestramento di sistemi di intelligenza artificiale avanzati. Secondo NVIDIA, queste ottimizzazioni aprono la strada a un’iterazione più rapida nella ricerca sulla robotica e sui veicoli autonomi.
Adozione da parte dell’industria
I principali attori della robotica e della tecnologia automobilistica hanno ha mostrato un forte interesse per Cosmos. Aziende come 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi e XPENG sono tra quelle che integrano la nuova piattaforma nelle loro pipeline di sviluppo.
Ad esempio, XPENG prevede di migliorare la propria robotica umanoide iniziative, mentre il colosso del ridesharing Uber collabora con NVIDIA per sfruttare Cosmos per una migliore cura dei dati e generazione di scenari.”L’intelligenza artificiale generativa alimenterà il futuro della mobilità, richiedendo sia dati ricchi che elaborazione molto potente”, ha affermato Dara Khosrowshahi, CEO di Uber.”Lavorando con NVIDIA, siamo fiduciosi di poter contribuire a potenziare la sequenza temporale per una guida autonoma sicura e scalabile soluzioni per l’industria.”
Aziende come SAP e ServiceNow hanno adottato in modo simile le famiglie Nemotron di NVIDIA.”Gli agenti IA che collaborano per risolvere compiti complessi su più linee di business sbloccheranno un livello completamente nuovo di produttività aziendale che va oltre gli attuali scenari di IA generativa”, ha affermato Philipp Herzig, chief AI Officer di SAP, in una nota.”Attraverso Joule di SAP, centinaia di milioni di utenti aziendali interagiranno con questi agenti per raggiungere i propri obiettivi più velocemente che mai.”
Integrazione NeMo, licenze aperte e misure di sicurezza
Tutto il Cosmo I modelli WFM e Nemotron si interfacciano con il framework NeMo di NVIDIA, consentendo la messa a punto e l’allineamento e generazione aumentata con recupero (RAG). Attraverso NeMo Curator, gli sviluppatori possono elaborare dati video su larga scala, mentre l’apprendimento per rinforzo dal feedback umano (RLHF) perfeziona i modelli per mantenere risposte appropriate e basate sul contesto.
NVIDIA ha rilasciato Cosmos con una licenza a modello aperto, incoraggiando la collaborazione e la personalizzazione all’interno della comunità di robotica e AV. L’azienda ha inoltre preso atto di misure per un’intelligenza artificiale sicura e responsabile, tra cui il watermarking dei contenuti generati dall’intelligenza artificiale, l’implementazione di barriere per mitigare testi o immagini dannosi e l’allineamento con le iniziative globali sulla sicurezza dell’intelligenza artificiale.
“Siamo fiduciosi di poter aiutare potenziare la tempistica per soluzioni di guida autonoma sicure e scalabili per il settore”, ha aggiunto Khosrowshahi, sottolineando una crescente enfasi su sistemi di intelligenza artificiale affidabili e trasparenti.
Verso un’intelligenza artificiale unificata Ecosistema
Unendo l’approccio basato sui dati sintetici di Nemotron-4 340B con la nuova piattaforma Cosmos WFM, NVIDIA definisce un percorso unificato per l’intelligenza artificiale che abbraccia ricerca, implementazione aziendale e automazione fisica Le famiglie. Llama Nemotron e Cosmos Nemotron ricoprono ruoli chiave nell’intelligenza artificiale degli agenti, mentre i WFM Cosmos affrontano le complessità della robotica e dello sviluppo di veicoli autonomi.
Dalla generazione di dati economicamente vantaggiosa alla Offrendo microservizi specializzati per attività linguistiche e visive in tempo reale, l’ultimo portfolio di NVIDIA esemplifica una strategia versatile per il progresso dell’intelligenza artificiale. Man mano che sempre più aziende, sviluppatori e ricercatori adottano questi modelli, la traiettoria dei sistemi autonomi e degli agenti software intelligenti sembra pronta ad accelerare.