NVIDIA ha anunciado varios avances en IA en CES 2025, revelando nuevos desarrollos que fusionan los éxitos anteriores de la compañía en la generación de datos sintéticos con su enfoque en la toma de decisiones autónoma.

Los nuevos lanzamientos incluyen el Plataforma Cosmos World Foundation Model (WFM): un completo conjunto de herramientas para crear vídeos fotorrealistas basados ​​en la física. y escenarios, y el Llama Nemotron más familias de Cosmos Nemotron, que permitan la IA del lenguaje, la visión y la toma de decisiones en diversos sectores, como la robótica, la atención médica y los vehículos autónomos.

Relacionado: Nvidia presenta las GPU Blackwell RTX serie 50 con DLSS 4 y el doble de potencia que la RTX 4090

“Creamos Cosmos para democratizar la IA física y poner la robótica general al alcance de todos los desarrolladores”, afirmó Jensen Huang, fundador y director ejecutivo de NVIDIA.”Los agentes de IA son la próxima industria robótica y probablemente representen una oportunidad multimillonaria”.

Al combinar la generación de datos sintéticos, el procesamiento de la visión y los modelos de lenguaje avanzados bajo un mismo paraguas, NVIDIA aspira a agilizar la transición de creación de datos para sistemas de IA completamente operativos. Este enfoque sigue el éxito de la serie Nemotron-4 340B, que anteriormente abordó la escasez de datos de entrenamiento de alta calidad para modelos de lenguaje grandes (LLM).

[contenido incorporado]

Nemotron-4 340B: Estableciendo una base basada en datos

A mediados de 2024, NVIDIA presentó los modelos Nemotron-4 340B para abordar la disponibilidad limitada de datos para aplicaciones complejas de IA. Los modelos produjeron datos sintéticos a escala, lo que permitió un refinamiento y adaptación de alto nivel para industrias como la atención médica, las finanzas y la manufactura.

Nemotron-4 340B ofrecía tres variantes: Base, Instruct y Reward Los modelos Instruct ayudaron a los desarrolladores a guiar los resultados de la IA a través de directivas claras, mientras que los modelos Reward calificaron las respuestas generadas en función de parámetros como la precisión y la coherencia. Este mecanismo de retroalimentación iterativa demostró ser valioso para entrenar modelos de lenguaje grandes, acelerar el desarrollo y mejorar la confiabilidad del modelo.

La iniciativa Nemotron-4 340B también se integró perfectamente con la plataforma NeMo de NVIDIA y la biblioteca TensorRT-LLM, brindando a los usuarios optimización. y flexibilidad en sus flujos de trabajo de IA. Los datos sintéticos generados por Nemotron-4 340B sentaron las bases para los últimos avances de NVIDIA en IA física y agente, uniendo la curación de datos, el entrenamiento de modelos y las necesidades de implementación.

Llama Nemotron y Cosmos Nemotron: en expansión IA agente

Las ofertas más recientes de NVIDIA en la familia Nemotron (Llama Nemotron y Cosmos Nemotron) van más allá de los simples datos. generación para impulsar agentes de IA en tiempo real. Los modelos de lenguaje grande (LLM) de Llama Nemotron se encargan de tareas como codificación, llamada de funciones, chat y cálculos matemáticos, mientras que los modelos de lenguaje de visión (VLM) de Cosmos Nemotron se centran en interpretar y responder a datos visuales en vídeos, imágenes y feeds de sensores.

“La IA agente es el próximo”A través de la frontera del desarrollo de la IA, y aprovechar esta oportunidad requiere una optimización completa en un sistema de LLM para ofrecer agentes de IA eficientes y precisos”, dijo Ahmad Al-Dahle, vicepresidente y director de GenAI en Meta, en un comunicado. Gracias a nuestra colaboración con Nvidia y nuestro compromiso compartido con los modelos abiertos, la familia Nvidia Llama Nemotron construida sobre Llama puede ayudar a las empresas a crear rápidamente sus propios agentes de IA personalizados.”

Arquitectura de Nvidia Agentic AI (Imagen: Nvidia)

Este enfoque dual incorpora NVIDIA Microservicios NIM que manejan tareas que requieren muchos recursos, como búsqueda de videos, resúmenes e interpretación de sensores. Al integrar el lenguaje y el procesamiento visual, los agentes de IA pueden gestionar una variedad de aplicaciones, desde logística de almacén hasta análisis de imágenes médicas.

Modelos de Cosmos World Foundation

Además las familias Llama Nemotron y Cosmos Nemotron, NVIDIA lanzó el Plataforma Cosmos World Foundation Model (WFM). Esta nueva plataforma se especializa en generar entornos y videos fotorrealistas basados ​​en la física para robótica, vehículos autónomos y escenarios generales de”IA física”. Su enfoque en simulaciones realistas reduce los costos asociados con la recopilación y prueba de cantidades masivas de datos del mundo real./p>

“El momento ChatGPT para la robótica está llegando. Al igual que los grandes modelos de lenguaje, los modelos de base mundial son fundamentales para avanzar en el desarrollo de robots y AV, pero no todos los desarrolladores tienen la experiencia y los recursos para entrenar los suyos propios”, señaló Huang en su discurso de apertura en CES.

Los desarrolladores pueden utilizar Cosmos WFM para crear escenarios personalizados, agregando complejidades como caminos nevados para sistemas AV o pisos de almacén congestionados para pruebas de robótica. Estos conjuntos de datos basados ​​en la física pueden refinar los modelos existentes o servir como un recurso de capacitación independiente. La empresa ha puesto estos modelos a disposición bajo una licencia de modelo abierto, con el objetivo de ampliar el acceso al desarrollo avanzado de IA.

Acelerar la IA física a través de datos y eficiencia informática

La IA física sigue siendo exigente desde el punto de vista computacional y requiere datos de alta fidelidad para simular el mundo real. Cosmos aborda estos desafíos ofreciendo un proceso de procesamiento de video acelerado y tokenizadores de video avanzados (disponibles bajo la licencia de modelo abierto de NVIDIA, a través de Hugging Face y GitHub), y el NVIDIA NeMo Curator para etiquetado y curación de datos.

Este proceso tiene como objetivo procesar grandes cantidades de datos de vídeo (hasta 20 millones de horas en 14 días utilizando la plataforma NVIDIA Blackwell) en lugar de años de operaciones vinculadas a la CPU.

Estas mejoras en la eficiencia ayudan a las organizaciones que buscan desarrollar, probar y perfeccionar sus modelos de IA sin verse limitadas por restricciones de datos del mundo real. Cosmos Tokenizer comprime imágenes y videos, lo que reduce los gastos generales y al mismo tiempo preserva la calidad esencial para entrenar sistemas avanzados de IA. Según NVIDIA, estas optimizaciones allanan el camino para una iteración más rápida en la robótica y la investigación de vehículos autónomos.

Adopción de la industria

Los principales actores de la robótica y la tecnología automotriz han mostró un gran interés en Cosmos. Empresas como 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi y XPENG se encuentran entre las que integran la nueva plataforma en sus procesos de desarrollo.

Por ejemplo, XPENG planea mejorar su robótica humanoide iniciativas, mientras que el gigante de viajes compartidos Uber colabora con NVIDIA para aprovechar Cosmos para una mejor conservación de datos y generación de escenarios.”La IA generativa impulsará el futuro de la movilidad, ya que requerirá datos enriquecidos y una computación muy poderosa”, afirmó Dara Khosrowshahi, director ejecutivo de Uber.”Al trabajar con NVIDIA, estamos seguros de que podemos ayudar a acelerar el cronograma para una conducción autónoma segura y escalable”. soluciones para la industria.”

Empresas como SAP y ServiceNow también han adoptado las familias Nemotron de NVIDIA.”Los agentes de IA que colaboran para resolver tareas complejas en múltiples líneas de negocio desbloquearán un nivel completamente nuevo de productividad empresarial más allá de los escenarios de IA generativa actuales”, dijo Philipp Herzig, director de IA de SAP, en un comunicado.”A través de Joule de SAP, cientos de millones de usuarios empresariales interactuarán con estos agentes para lograr sus objetivos más rápido que nunca”.

Integración de NeMo, licencias abiertas y medidas de seguridad

Todos Los modelos Cosmos WFM y Nemotron interactúan con el framework NeMo de NVIDIA, lo que permite realizar ajustes, alineación y generación de recuperación aumentada (RAG). A través de NeMo Curator, los desarrolladores pueden procesar datos de vídeo a gran escala, mientras que el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) refina los modelos para mantener respuestas apropiadas basadas en el contexto.

NVIDIA ha lanzado Cosmos bajo una licencia de modelo abierto, fomentando la colaboración y personalización dentro de la comunidad de robótica y AV. La compañía también tomó medidas para una IA segura y responsable, incluida la colocación de marcas de agua en el contenido generado por IA, la implementación de barreras de seguridad para mitigar textos o imágenes dañinos y la alineación con iniciativas globales de seguridad de IA.

“Estamos seguros de que podemos ayudar Acelere el cronograma para soluciones de conducción autónoma seguras y escalables para la industria”, agregó Khosrowshahi, subrayando un creciente énfasis en sistemas de IA transparentes y confiables.

Hacia una IA unificada Ecosistema

Al fusionar el enfoque basado en datos sintéticos de Nemotron-4 340B con la nueva plataforma Cosmos WFM, NVIDIA establece un camino unificado para la IA que abarca la investigación, la implementación empresarial y la automatización física. Las familias Llama Nemotron y Cosmos Nemotron desempeñan funciones clave en la IA agente, mientras que los Cosmos WFM abordan las complejidades de la robótica y el desarrollo de vehículos autónomos.

Desde permitir la generación de datos rentable hasta ofrecer productos especializados. Microservicios para tareas de lenguaje y visión en tiempo real, el último portafolio de NVIDIA ejemplifica una estrategia versátil para el avance de la IA. A medida que más empresas, desarrolladores e investigadores adopten estos modelos, la trayectoria de los sistemas autónomos y los agentes de software inteligentes parece lista para acelerarse.

Categories: IT Info