NVIDIA avancerar Agentic AI med Llama och Cosmos Nemotron-modeller

NVIDIA har tillkännagett flera framsteg inom AI vid CES 2025, och avslöjar nya utvecklingar som slår samman företagets tidigare framgångar inom syntetisk datagenerering med dess fokus på autonomt beslutsfattande.

De nya utgåvorna inkluderar Cosmos World Foundation Model (WFM)-plattform—en omfattande verktygslåda för att skapa fotorealistiska, fysikbaserade videor och scenarier – och Lama Nemotron plus Cosmos Nemotron familjer, som möjliggör språk, vision och beslutsfattande AI inom olika sektorer som robotik, sjukvård och autonoma fordon.

Relaterat: Nvidia avslöjar RTX 50-Serie Blackwell GPU:er med DLSS 4 och dubbelt så kraft som RTX 4090

“Vi skapade Cosmos för att demokratisera fysisk AI och sätta allmän robotik inom räckhåll för alla utvecklare”, säger Jensen Huang, NVIDIAs grundare och VD.”AI-agenter är nästa robotindustri och kommer sannolikt att bli en möjlighet för flera miljarder dollar.”

Genom att kombinera syntetisk datagenerering, visionsbearbetning och avancerade språkmodeller under ett paraply strävar NVIDIA efter att effektivisera övergången från dataskapande till fullt fungerande AI-system Detta tillvägagångssätt följer framgången för Nemotron-4 340B-serien, som tidigare åtgärdade bristen på högkvalitativ träningsdata för stora språk. modeller (LLM).

[inbäddat innehåll]

Nemotron-4 340B: Etablering av en datadriven grund

I mitten av 2024 introducerade NVIDIA Nemotron-4 340B-modeller för att hantera begränsad datatillgänglighet för komplexa AI-applikationer. Dessa modeller producerade syntetiska data i stor skala, vilket möjliggör förfining på hög nivå anpassning för branscher som sjukvård, finans och tillverkning.

Nemotron-4 340B erbjöd tre varianter – Base, Instruct och Reward de genererade svaren baserat på parametrar som noggrannhet och koherens. Denna iterativa återkopplingsmekanism visade sig vara värdefull för att träna stora språkmodeller, påskynda utvecklingen och förbättra modellens tillförlitlighet.

Initiativet Nemotron-4 340B integrerades också sömlöst med NVIDIAs NeMo-plattform och TensorRT-LLM-biblioteket, vilket ger användarna optimering och flexibilitet i deras AI-arbetsflöden. De syntetiska data som genererades av Nemotron-4 340B lade grunden för NVIDIAs senaste genombrott inom agentisk och fysisk AI, som överbryggade datakurering, modellträning och implementeringsbehov.

Llama Nemotron och Cosmos Nemotron: Expanding Agentisk AI

NVIDIAs senaste erbjudanden i Nemotron familjen – Llama Nemotron och Cosmos Nemotron – går bortom bara datagenerering för att driva AI-agenter i realtid. Llama Nemotron stora språkmodeller (LLM) tillgodoser uppgifter som kodning, funktionsanrop, chatt och matematiska beräkningar, medan Cosmos Nemotron vision language models (VLM) fokuserar på att tolka och svara på visuella data i videor, bilder och sensorflöden.

“Agentisk AI är nästa gräns för AI-utveckling, och för att leverera denna möjlighet krävs fullstackoptimering över ett system av LLM:er för att leverera effektiva, exakta AI-agenter”, säger Ahmad Al-Dahle, vicepresident och chef för GenAI på Meta, i ett uttalande”Genom vårt samarbete med Nvidia och vårt gemensamma engagemang för öppna modeller kan Nvidia Llama Nemotron-familjen som bygger på Llama hjälpa företag att snabbt skapa. sina egna anpassade AI-agenter.”

Nvidia Agentic AI-arkitektur (Bild: Nvidia)

Detta Dubbelsidigt tillvägagångssätt inkluderar specialiserade NVIDIA NIM-mikrotjänster som hanterar resurstunga uppgifter som videosökning, sammanfattning och sensor tolkning. Genom att integrera språk och visuell bearbetning kan AI-agenter hantera en rad applikationer, från lagerlogistik till medicinsk bildanalys.

Cosmos World Foundation Models

På sidan familjerna Llama Nemotron och Cosmos Nemotron lanserade NVIDIA plattformen Cosmos World Foundation Model (WFM). Den här nya plattformen är specialiserad på att skapa fotorealistiska, fysikbaserade videor och miljöer för robotik, autonoma fordon och allmänna scenarier för”fysisk AI”. Dess fokus på realistiska simuleringar sänker kostnaderna för att samla in och testa enorma mängder verklig data.

“ChatGPT-ögonblicket för robotik är på väg Liksom stora språkmodeller är världens grundmodeller grundläggande för att utveckla robot-och AV-utveckling, men inte alla Utvecklare har expertis och resurser för att utbilda sina egna”, konstaterade Huang i sin inledande keynote på CES.

Utvecklare kan använda Cosmos WFMs för att skapa skräddarsydda scenarier och lägga till komplexitet som snöiga vägar för AV-system eller överbelastat lager. golv för robottestning. Dessa fysikmedvetna datamängder kan antingen förfina befintliga modeller eller fungera som en fristående träningsresurs. Företaget har gjort dessa modeller tillgängliga under en öppen modelllicens, i syfte att bredda tillgången till avancerad AI-utveckling.

Accelerera fysisk AI genom data-och beräkningseffektivitet

Fysisk AI förblir beräkningskrävande och kräver högfientlig data för att simulera den verkliga världen. Cosmos tar itu med dessa utmaningar genom att erbjuda en accelererad videobearbetningspipeline, avancerade videotokenizers (tillgängliga under NVIDIAs öppna modelllicens, via Hugging Face a> och GitHub), och NVIDIA NeMo Curator för datamärkning och kurator.

Denna pipeline syftar till att bearbeta enorma mängder videodata – upp till 20 miljoner timmar på 14 dagar med NVIDIA Blackwell-plattformen – snarare än år av CPU-bunden drift.

Dessa effektivitetsvinster hjälper organisationer som vill utveckla, testa och förfina sina AI-modeller utan att begränsas av verkliga databegränsningar. Cosmos Tokenizer komprimerar bilder och videor, vilket minskar omkostnader samtidigt som den väsentliga kvaliteten bevaras för att träna avancerade AI-system. Enligt NVIDIA banar dessa optimeringar vägen för snabbare iteration inom robotik och autonoma fordonsforskning.

Industriantagande

Stora aktörer inom robotik och fordonsteknik har visat stort intresse för Cosmos. Företag som 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi och XPENG är bland dem som integrerar den nya plattformen i sina utvecklingspipelines.

Till exempel planerar XPENG att förbättra sin humanoida robotik initiativ, samtidigt som samarbetsjätten Uber samarbetar med NVIDIA för att utnyttja Cosmos för bättre datakurering och scenariegenerering.”Generativ AI kommer att driva framtidens mobilitet, vilket kräver både rik data och mycket kraftfull datoranvändning”, säger Dara Khosrowshahi, VD för Uber.”Genom att arbeta med NVIDIA är vi övertygade om att vi kan hjälpa till att överladda tidslinjen för säker och skalbar autonom körning lösningar för branschen.”

Företag som SAP och ServiceNow har på liknande sätt tagit till sig NVIDIAs Nemotron-familjer.”AI-agenter som samarbetar för att lösa komplexa uppgifter över flera grenar av verksamheten kommer att låsa upp en helt ny nivå av företagsproduktivitet bortom dagens generativa AI-scenarier”, säger Philipp Herzig, chief AI officer på SAP, i ett uttalande.”Genom SAP:s Joule, hundratals miljoner företagsanvändare kommer att interagera med dessa agenter för att uppnå sina mål snabbare än någonsin tidigare.”

NeMo Integration, öppen licensiering och säkerhetsåtgärder

Alla Cosmos WFM-och Nemotron-modeller gränssnitt med NVIDIAs NeMo-ramverk, som möjliggör finjustering, justering och återvinningsförstärkt generation (RAG). Genom NeMo Curator kan utvecklare bearbeta storskalig videodata, medan förstärkningsinlärning från mänsklig feedback (RLHF) förfinar modellerna för att bibehålla lämpliga, kontextstyrda svar.

NVIDIA har släppt Cosmos under en öppen modelllicens, vilket uppmuntrar samarbete och anpassning inom robotik-och AV-gemenskapen. Företaget noterade också åtgärder för säker och ansvarsfull AI, inklusive vattenmärkning av AI-genererat innehåll, implementering av skyddsräcken för att mildra skadlig text eller bilder och anpassa sig till globala AI-säkerhetsinitiativ.

“Vi är övertygade om att vi kan hjälpa till överladda tidslinjen för säkra och skalbara lösningar för autonom körning för branschen”, tillade Khosrowshahi och underströk en växande betoning på pålitlig, transparent AI-system.

Mot ett enhetligt AI-ekosystem

Genom att slå samman Nemotron-4 340Bs syntetiska datadrivna tillvägagångssätt med den nya Cosmos WFM-plattformen, NVIDIA anger en enhetlig väg för AI som sträcker sig över forskning, företagsimplementering och fysisk automatisering Llama Nemotron och Cosmos Nemotron-familjer fyller nyckelroller inom agent AI, medan Cosmos WFMs tar itu med komplexiteten i robotik och autonom fordonsutveckling.

Från att möjliggöra kostnadseffektiv datagenerering till att erbjuda specialiserade mikrotjänster för språk-och visionuppgifter i realtid, NVIDIAs senaste portfölj exemplifierar en mångsidig strategi för AI framsteg. När fler företag, utvecklare och forskare använder dessa modeller verkar banan för autonoma system och intelligenta programvaruagenter redo att accelerera.

NVIDIA avancerar Agentic AI med Llama och Cosmos Nemotron-modeller

Published by All Things Windows on January 7, 2025

Nemotron-4 340B: Etablering av en datadriven grund

Llama Nemotron och Cosmos Nemotron: Expanding Agentisk AI

Cosmos World Foundation Models

Accelerera fysisk AI genom data-och beräkningseffektivitet

Industriantagande

NeMo Integration, öppen licensiering och säkerhetsåtgärder

Mot ett enhetligt AI-ekosystem

IT Info

Microsoft Edge Efficiency-läge: Vad gör det och hur man stänger av eller slår på det?

IT Info

AI Startup Anthropic Eyes Värdering på $60 miljarder med ny finansieringsrunda

IT Info

NVIDIA introducerar Reflex 2: rekordstora 75 % latensvinster med prediktiv rendering

NVIDIA avancerar Agentic AI med Llama och Cosmos Nemotron-modeller

Published by All Things Windows on January 7, 2025

Nemotron-4 340B: Etablering av en datadriven grund

Llama Nemotron och Cosmos Nemotron: Expanding Agentisk AI

Cosmos World Foundation Models

Accelerera fysisk AI genom data-och beräkningseffektivitet

Industriantagande

NeMo Integration, öppen licensiering och säkerhetsåtgärder

Mot ett enhetligt AI-ekosystem

Related Posts

IT Info

Microsoft Edge Efficiency-läge: Vad gör det och hur man stänger av eller slår på det?

IT Info

AI Startup Anthropic Eyes Värdering på $60 miljarder med ny finansieringsrunda

IT Info

NVIDIA introducerar Reflex 2: rekordstora 75 % latensvinster med prediktiv rendering