nvidia ha ingresado a la pequeña arena del modelo de IA competitivo con el lanzamiento de Nemotron-Nano-9B-V2, un modelo de código abierto de 9 billones de parámetros potente y eficiente. Disponible ahora, el modelo presenta una nueva arquitectura híbrida de transformador mamba diseñada para un alto rendimiento en una sola GPU.

Su característica más destacada es un sistema de razonamiento único alternable, que permite a los desarrolladores controlar el proceso de”pensamiento”del modelo para equilibrar el rendimiento y la latencia. El lanzamiento posiciona a Nvidia como un jugador clave en el mercado en crecimiento para una IA más pequeña y comercialmente amigable, desafiando directamente las innovaciones recientes.

Este movimiento indica un impulso estratégico en el floreciente espacio del modelo de lenguaje pequeño (SLM). A medida que la industria lidia con los altos costos de los modelos fronterizos, la demanda de alternativas eficientes pero capaces ha aumentado. La entrada de Nvidia desafía directamente las versiones recientes de competidores como Alibaba y Deepseek.

un nuevo contención en el pequeño modelo arena

La oferta es un sistema finamente ajustado diseñado para accesibilidad y energía. El Nemotron-Nano-9B-V2 es un modelo de 9 billones de parámetros comprimido deliberadamente de un más grande 12 billón de parámetros modelo . Esta poda fue una decisión estratégica para garantizar que pudiera funcionar de manera eficiente en una sola GPU NVIDIA A10, una pieza de hardware popular y ampliamente desplegada en el sector empresarial. El modelo se podía encajar específicamente en el chip A10.

Estamos entusiasmados de compartir la tabla de clasificación 🏆 nvidia nemotron nano 2, un innovador parámetros de parámetros 9b abiertos, modelo de razonamiento multilingüe que está redefiniendo la eficiencia en la IA y ganó el punto principal en @artificialanlys INDEX de inteligencia clasificación de clasificación entre modelos abiertos dentro de… pic.twitter.com/zs5gtdzjsk

-desarrollador nvidia ai (@nvidiaaidev) 18 de agosto, 2025

La compañía también ha lanzado el sintonizado 12 y los modelos de 9B de agosto. Desarrolladores Más opciones para ajustar personalizado.

Más allá de su tamaño eficiente, el modelo cuenta con una gran ventana de contexto de 128k, lo que le permite procesar y razonar sobre documentos extensos. También es altamente versátil, manejando múltiples idiomas, incluidos inglés, alemán, español y japonés, y es experto tanto en la instrucción compleja como las tareas de generación de códigos, según Nvidia.

El rendimiento del modelo en puntos de referencia de la industria clave es donde su borde competitivo queda claro. En su informe técnico oficial , Nvidia detalla un conjunto de resultados sólidos. En un razonamiento complejo, logra 72.1% en AIME25 y 64.0% en GPQA. Para la resolución de problemas matemáticos, obtiene un impresionante 97.8% en Math500.

Sus capacidades se extienden en el desarrollo de software y la adherencia a las instrucciones. El modelo asegura un puntaje del 71.1% en la evaluación de codificación LivecodeBench y demuestra una comprensión sólida de contexto largo con 78.9% en la prueba de Ruler 128K. En la instrucción siguiente, alcanza el 90.3% en Ifeval, mostrando su confiabilidad.

Estos resultados son significativos porque colocan nemotron-nano-9b-v2 antes de sus rivales directos. En todos los ámbitos, los puntos de referencia muestran una mayor precisión que el QWEN3-8B ​​de Alibaba, un punto de comparación común en el espacio SLM. Esto establece a Nemotron-Nano como una nueva opción formidable para los desarrolladores que buscan un rendimiento de nivel superior en un paquete compacto y eficiente.

arquitectura híbrida y razonamiento controlable

Setpinning the Model Eficiencia es su arquitectura sofisticada de transformador híbrido . Este diseño es una respuesta directa a las limitaciones de los modelos tradicionales de idiomas grandes. Los LLM más populares son modelos puros de”transformador”, que dependen completamente de las capas de atención. Si bien son poderosas, estas capas se vuelven extremadamente costosas en la memoria y calculan a medida que crece la longitud de la secuencia de texto, un problema que escala cuadráticamente.

Para resolver esto, Nemotron-Nano está construido en Nemotron-H, una familia de modelos que fusiona la arquitectura de transformadores estándar con la innovadora arquitectura de Mamba desarrollada por los investigadores de Carnegie Mellon y Princeton. Mamba incorpora modelos de espacio de estado selectivos (SSMS), que pueden procesar secuencias de información muy largas manteniendo un estado continuo, lo que les permite escalar linealmente con la longitud de la secuencia.

Este enfoque híbrido produce ganancias de rendimiento sustanciales. Al sustituir la mayoría de los costosos mecanismos de atención con estas capas espaciales de estado de tiempo lineal, el modelo puede lograr un rendimiento hasta seis veces mayor en contextos largos en comparación con modelos de transformadores de tamaño similar, sin una caída significativa en la precisión. Esto lo hace ideal para tareas que involucran documentos largos o extensos historiales de chat.

Más allá de su arquitectura eficiente, Nemotron-Nano presenta un sistema novedoso para administrar su proceso de resolución de problemas, lo que brinda a los desarrolladores un control de grano fino sobre su comportamiento. El modelo predeterminado es generar un rastro de razonamiento antes de proporcionar una respuesta final, pero los desarrolladores pueden usar tokens de control simples como `/Think` para solicitar explícitamente este proceso paso a paso o`/no_think` para evitarlo para una respuesta más rápida y directa.

Mejorar más este control es una característica de”presupuesto de pensamiento”de tiempo de ejecución. Esto permite a los desarrolladores limitar el número de tokens que el modelo dedica a su razonamiento interno antes de completar una respuesta. Este mecanismo proporciona una palanca crucial para equilibrar la precisión con la latencia, una preocupación clave en aplicaciones de producción como la atención al cliente o los agentes autónomos donde la velocidad de respuesta es crítica.

La propia documentación de Nvidia ilustra esto con curvas de precisión versus presupuesto, mostrando cómo las escalas de rendimiento como la topina de los aumentos de razonamiento. Esta característica fue diseñada deliberadamente durante el post-entrenamiento, donde aproximadamente el 5% de los datos contenían trazas de razonamiento truncadas, lo que permite este control presupuestario de grano fino en un momento de inferencia.

Abierto para negocios: licencias permisivas y conjuntos de datos masivos

en un movimiento apuntado a la rápida adopción empresarial, nvidia ha liberado nvidia-nano-9B-9B-9B-9B-9B-nano-nano- Acuerdo de licencia de modelo abierto NVIDIA NVIDIA . La licencia está diseñada explícitamente para ser comercialmente amigable, afirmando que los modelos se pueden usar comercialmente fuera de la caja. Esto permite a las organizaciones descargar, modificar e implementar libremente el modelo en producción inmediatamente sin negociar una licencia separada o pagar tarifas vinculadas al uso, ingresos o recuentos de usuarios.

de manera crucial, NVIDIA no reclama la propiedad de ninguna salida generada por el modelo, dejando los derechos y responsabilidades completos con el desarrollador. Este enfoque abierto contrasta con licencias abiertas escalonadas de otros proveedores, que a menudo requieren un acuerdo pagado una vez que una empresa alcanza una determinada escala. Los desarrolladores también son libres de crear y distribuir modelos derivados, fomentando un ecosistema colaborativo.

La licencia incluye, sin embargo, incluye varias condiciones estándar centradas en el uso responsable. Las empresas no deben omitir las barandillas de seguridad incorporadas sin implementar reemplazos comparables. Cualquier redistribución del modelo o sus derivados debe incluir el texto de la licencia y la atribución adecuada. Además, el uso debe cumplir con las regulaciones comerciales y alinearse con las directrices de IA confiables de NVIDIA, y una cláusula de litigio protege el ecosistema al finalizar la licencia para los usuarios que demandan a otros por la infracción por el modelo.

en lo que NVIDIA llama”una primera para un modelo abierto como esta”, la compañía también ha liberado la mayoría de los datos utilizados para la prensación. El masivo nemotron-Pre-Training-dataset-V1 Compresa un enormous 6.6 trillon de nemotron-Pre-Training-Dataset-V1 Compresa un enormous 6. datos, que ofrecen transparencia sin precedentes.

Este conjunto de datos se organiza en cuatro categorías clave. Incluye un conjunto de datos centrado en matemáticas creado con una tubería novedosa para preservar ecuaciones complejas, un conjunto de datos de código curado a gran escala de GitHub con filtrado de etapas múltiples y un conjunto de datos generado sintéticamente que cubre los dominios STEM, académicos y de razonamiento. También presenta una nueva versión del Nemotron-CC Web Crawl, mejorado con pares sintéticos de preguntas y respuestas traducidas en 15 idiomas para admitir capacidades multilingües robustas.

El modelo y sus conjuntos de datos ahora están disponibles para Descargar en la cara de abrazo y a través del catálogo modelo de Nvidia. Al proporcionar no solo un modelo poderoso, sino también los vastos datos de alta calidad en los que fue entrenado, Nvidia está ofreciendo un conjunto de herramientas integral. Esta estrategia tiene como objetivo empoderar a los desarrolladores y acelerar la innovación al darles las herramientas para la eficiencia de alto rendimiento y implementación.

Categories: IT Info