A NVIDIA anunciou vários avanços em IA na CES 2025, revelando novos desenvolvimentos que mesclam os sucessos anteriores da empresa na geração de dados sintéticos com seu foco na tomada de decisões autônoma.
Os novos lançamentos incluem o Plataforma Cosmos World Foundation Model (WFM)—um extenso kit de ferramentas para criar vídeos fotorrealistas baseados em física e cenários — e o Llama Nemotron além de famílias Cosmos Nemotron, que permitem linguagem, visão e IA para tomada de decisões em diversos setores, como robótica, saúde e veículos autônomos.
Relacionado: Nvidia revela GPUs Blackwell série RTX 50 com DLSS 4 e O dobro da potência do RTX 4090
“Criamos o Cosmos para democratizar a IA física e colocar a robótica geral ao alcance de todos os desenvolvedores”, disse Jensen Huang, fundador e CEO da NVIDIA. “Os agentes de IA são a próxima indústria robótica e provavelmente serão uma oportunidade multibilionária.”
Ao combinar geração de dados sintéticos, processamento de visão e modelos de linguagem avançados sob o mesmo guarda-chuva, a NVIDIA aspira a agilizar a transição de criação de dados para sistemas de IA totalmente operacionais Esta abordagem segue o sucesso da série Nemotron-4 340B, que anteriormente abordou a escassez de dados de treinamento de alta qualidade para grandes modelos de linguagem (LLMs).
[conteúdo incorporado]
Em meados de 2024, a NVIDIA lançou os modelos Nemotron-4 340B para lidar com a disponibilidade limitada de dados para aplicações complexas de IA. modelos produziram dados sintéticos em escala, permitindo refinamento e adaptação de alto nível para setores como saúde, finanças e manufatura.
O Nemotron-4 340B ofereceu três variantes: Base, Instruct, e Reward. Os modelos Instruct ajudaram os desenvolvedores a orientar os resultados da IA por meio de diretivas claras, enquanto os modelos Reward pontuaram as respostas geradas com base em parâmetros como precisão e coerência. Esse mecanismo de feedback iterativo se mostrou valioso para treinar grandes modelos de linguagem, acelerando o desenvolvimento e melhorando a confiabilidade do modelo.
A iniciativa Nemotron-4 340B também se integrou perfeitamente com a plataforma NeMo da NVIDIA e a biblioteca TensorRT-LLM, proporcionando otimização aos usuários. e flexibilidade em seus fluxos de trabalho de IA. Os dados sintéticos gerados pelo Nemotron-4 340B estabeleceram as bases para os mais recentes avanços da NVIDIA em IA física e de agente, unindo curadoria de dados, treinamento de modelo e necessidades de implantação.
Llama Nemotron e Cosmos Nemotron: Expandindo Agentic AI
As mais novas ofertas da NVIDIA na família Nemotron – Llama Nemotron e Cosmos Nemotron – vão além apenas geração de dados para potencializar agentes de IA em tempo real. Os modelos de linguagem grande (LLMs) do Llama Nemotron atendem a tarefas como codificação, chamada de função, bate-papo e cálculos matemáticos, enquanto os modelos de linguagem de visão (VLMs) do Cosmos Nemotron se concentram na interpretação e resposta a dados visuais em vídeos, imagens e feeds de sensores.
“Agentic AI é a próxima fronteira do desenvolvimento de IA, e aproveitar esta oportunidade requer otimização completa em um sistema de LLMs para fornecer agentes de IA eficientes e precisos”, disse Ahmad Al-Dahle, vice-presidente e chefe de GenAI da Meta, em um comunicado. “Através Nossa colaboração com a Nvidia e nosso compromisso compartilhado com modelos abertos, a família Nvidia Llama Nemotron construída no Llama pode ajudar as empresas a criar rapidamente seus próprios agentes de IA personalizados.”
Arquitetura Nvidia Agentic AI (Imagem: Nvidia)
Essa abordagem dupla incorpora NVIDIA NIM especializada microsserviços que lidam com tarefas que exigem muitos recursos, como pesquisa de vídeos, resumo e interpretação de sensores. Ao integrar o processamento visual e de linguagem, os agentes de IA podem gerenciar uma variedade de aplicações, desde logística de armazenamento até análise de imagens médicas.
Modelos da Cosmos World Foundation
Além disso das famílias Llama Nemotron e Cosmos Nemotron, a NVIDIA lançou o Plataforma Cosmos World Foundation Model (WFM). Esta nova plataforma é especializada na geração de vídeos e ambientes fotorrealistas baseados na física para robótica, veículos autônomos e cenários gerais de “IA física”. Seu foco em simulações realistas reduz os custos associados à coleta e teste de grandes quantidades de dados do mundo real.
“O momento ChatGPT para a robótica está chegando, assim como os grandes modelos de linguagem, os modelos de base mundial são fundamentais para o avanço do desenvolvimento de robôs e AV, mas nem todos os desenvolvedores têm o conhecimento e os recursos para treinar os seus próprios”, observou Huang em. sua palestra de abertura em CES.
Os desenvolvedores podem usar os WFMs do Cosmos para criar cenários personalizados, adicionando complexidades como estradas com neve para sistemas AV ou pisos de armazéns congestionados para testes de robótica. Esses conjuntos de dados com reconhecimento de física podem refinar modelos existentes ou servir como um recurso de treinamento independente. A empresa disponibilizou esses modelos sob uma licença de modelo aberto, com o objetivo de ampliar o acesso ao desenvolvimento avançado de IA.
Acelerando a IA física por meio de dados e eficiência computacional
A IA física continua exigente em termos computacionais, exigindo dados de alta fidelidade para simular o mundo real. O Cosmos aborda esses desafios oferecendo um pipeline de processamento de vídeo acelerado e tokenizadores de vídeo avançados (disponíveis sob a licença de modelo aberto da NVIDIA, via Hugging Face e GitHub) e o NVIDIA NeMo Curator para rotulagem e curadoria de dados.
Esse pipeline visa processar grandes quantidades de dados de vídeo (até 20 milhões de horas em 14 dias usando a plataforma NVIDIA Blackwell), em vez de anos de operações vinculadas à CPU.
Esses ganhos de eficiência ajudam as organizações que buscam desenvolver, testar e refinar seus modelos de IA sem serem limitadas pelas restrições de dados do mundo real. O Cosmos Tokenizer compacta imagens e vídeos, reduzindo a sobrecarga e preservando a qualidade essencial para o treinamento de sistemas avançados de IA. De acordo com a NVIDIA, essas otimizações abrem caminho para uma iteração mais rápida em robótica e pesquisa de veículos autônomos.
Adoção pela indústria
Os principais participantes da robótica e da tecnologia automotiva têm demonstrou grande interesse no Cosmos. Empresas como 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi e XPENG estão entre aquelas que integram a nova plataforma em seus pipelines de desenvolvimento.
Por exemplo, a XPENG planeja aprimorar sua robótica humanóide. iniciativas, enquanto a gigante do compartilhamento de viagens Uber colabora com a NVIDIA para aproveitar o Cosmos para melhor curadoria de dados e geração de cenários. “A IA generativa impulsionará o futuro da mobilidade, exigindo dados ricos e computação muito poderosa”, disse Dara Khosrowshahi, CEO da Uber. “Ao trabalhar com a NVIDIA, estamos confiantes de que podemos ajudar a turbinar o cronograma para uma direção autônoma segura e escalável. soluções para a indústria.”
Empresas como SAP e ServiceNow também adotaram as famílias Nemotron da NVIDIA. “Agentes de IA que colaboram para resolver tarefas complexas em múltiplas linhas de negócios desbloquearão um nível totalmente novo de produtividade empresarial, além dos cenários generativos de IA atuais”, disse Philipp Herzig, diretor de IA da SAP, em um comunicado. centenas de milhões de usuários corporativos interagirão com esses agentes para atingir seus objetivos com mais rapidez do que nunca.”
Integração NeMo, licenciamento aberto e medidas de segurança
Todos Os modelos Cosmos WFMs e Nemotron fazem interface com a estrutura NeMo da NVIDIA, permitindo ajuste fino, alinhamento e geração aumentada de recuperação (RAG). Através do NeMo Curator, os desenvolvedores podem processar dados de vídeo em grande escala, enquanto o aprendizado por reforço a partir de feedback humano (RLHF) refina os modelos para manter respostas adequadas e orientadas ao contexto.
A NVIDIA lançou o Cosmos sob uma licença de modelo aberto, incentivando a colaboração e a personalização na comunidade de robótica e AV. A empresa também observou medidas para uma IA segura e responsável, incluindo marcas d’água em conteúdo gerado por IA, implementação de proteções para mitigar textos ou imagens prejudiciais e alinhamento com iniciativas globais de segurança de IA.
“Estamos confiantes de que podemos ajudar acelerar o cronograma para soluções de direção autônoma seguras e escaláveis para a indústria”, acrescentou Khosrowshahi, ressaltando a crescente ênfase em sistemas de IA confiáveis e transparentes.
Rumo a uma IA unificada Ecossistema
Ao fundir a abordagem baseada em dados sintéticos do Nemotron-4 340B com a nova plataforma Cosmos WFM, a NVIDIA estabelece um caminho unificado para IA que abrange pesquisa, implantação empresarial e automação física. As famílias Llama Nemotron e Cosmos Nemotron desempenham funções importantes na IA de agência, enquanto os WFMs Cosmos abordam as complexidades da robótica e do desenvolvimento de veículos autônomos.
Ao permitir a geração de dados com boa relação custo-benefício. Além de oferecer microsserviços especializados para tarefas de linguagem e visão em tempo real, o portfólio mais recente da NVIDIA exemplifica uma estratégia versátil para o avanço da IA. À medida que mais empresas, desenvolvedores e pesquisadores adotam esses modelos, a trajetória para sistemas autônomos e agentes de software inteligentes parece pronta para acelerar.