NVIDIA a intrat în arena competitivă a modelului AI mic, cu lansarea Nemotron-Nano-9B-V2, un model open-source puternic și eficient de 9 miliarde de parametri. Disponibil acum, modelul prezintă o nouă arhitectură hibridă Mamba-Transformer, concepută pentru un randament ridicat pe un singur GPU.
Caracteristica sa de standout este un sistem unic de raționament, permițând dezvoltatorilor să controleze procesul „gândirea” modelului pentru a echilibra performanța și latența. Eliberarea poziționează NVIDIA ca un jucător cheie pe piața în creștere pentru AI mai mici, prietenoase din punct de vedere comercial, care provoacă direct inovații recente.
Această mișcare semnalează o apăsare strategică în spațiul în plină expansiune a modelului de limbaj mic (SLM). Pe măsură ce industria se confruntă cu costurile ridicate ale modelelor de frontieră, cererea de alternative eficiente, dar capabile, a crescut. Intrarea NVIDIA contestă în mod direct lansările recente ale concurenților precum Alibaba și Deepseek.
un nou conținut în cadrul unei mici modele de nou Un sistem fin reglat conceput pentru accesibilitate și putere. Nemotron-nano-9B-V2 este un model de 9 miliarde de parametri comprimat în mod deliberat dintr-un 12-billion-parameter model . Această tăiere a fost o decizie strategică de a se asigura că ar putea funcționa eficient pe un singur GPU NVIDIA A10, o piesă de hardware populară și implementată pe scară largă în sectorul întreprinderii.
Acest accent pe A10 GPU subliniază strategia Nvidia pentru a face AI avansat accesibil la o gamă largă de utilizatori, fără a necesita investiții masive de hardware. Modelul a fost tăiat pentru a se potrivi în mod specific cipului A10.
Suntem încântați să împărtășim 🏆 NVIDIA NEMOTRON NANO 2, un model de raționament deschis de 9B, care redefini eficiența în AI și a câștigat locul de conducere pe @artificialanlys Intelligence Index clasdboard printre modelele deschise în interiorul… pic.twitter.com/zs5gtdzjsk
-dezvoltator NVIDIA AI (@NVIDIAADev) 18 august, 2025
Compania a lansat, de asemenea Dezvoltatori Mai multe opțiuni pentru reglare fină personalizată.
Dincolo de dimensiunea sa eficientă, modelul are o fereastră mare de context de 128k, permițându-i să proceseze și să motiveze documentele extinse. De asemenea, este extrem de versatil, gestionând mai multe limbi, inclusiv engleză, germană, spaniolă și japoneză și este adept atât la instrucțiunile complexe, cât și la sarcinile de generare a codului, potrivit Nvidia.
Performanța modelului pe referințe cheie ale industriei este locul în care marginea sa competitivă devine clară. În Raport tehnic oficial , nvidia detaliază o suită de rezultate puternice. La raționamentele complexe, realizează 72,1% pe AIME25 și 64,0% la GPQA. Pentru rezolvarea matematică a problemelor, înscrie un impresionant 97,8% la Math500.
Capabilitățile sale se extind în dezvoltarea de software și aderarea instrucțiunilor. Modelul asigură un scor de 71,1% la evaluarea codificării LiveCodeBench și demonstrează o înțelegere robustă a contextului lung cu 78,9% la testul Ruler 128K. La instrucțiunile următoare, ajunge la 90,3% pe Ifeval, prezentându-și fiabilitatea.
aceste rezultate sunt semnificative, deoarece plasează nemotron-nano-9b-v2 înaintea rivalilor săi direcți. Peste bord, reperele prezintă o precizie mai mare decât QWEN3-8B de la Alibaba, un punct comun de comparație în spațiul SLM. Acest lucru stabilește Nemotron-Nano ca o opțiune nouă formidabilă pentru dezvoltatorii care caută performanțe de top într-un pachet compact și eficient.
arhitectură hibridă și raționament controlabil
Subpitarea eficienței model href=”https://research.nvidia.com/labs/adlr/nvidia-nemotron-nano-2/”target=”_ blank”> arhitectură sofisticată hibrid mamba-transformer . Acest design este un răspuns direct la limitările modelelor tradiționale de limbaj mare. Cele mai populare LLM-uri sunt modele de „transformare” pure, care se bazează în întregime pe straturile de atenție. Deși sunt puternice, aceste straturi devin extrem de costisitoare în memorie și calculează pe măsură ce lungimea secvenței de text crește, o problemă care se scalează în mod quadratic.
Pentru a rezolva acest lucru, Nemotron-Nano este construită pe Nemotron-H, o familie de modele care fuzionează arhitectura de transformare standard cu arhitectura mamba inovatoare dezvoltată de cercetătorii la carnegie Mellon și cu princitonul inovator. Mamba încorporează modele de spațiu de stare selective (SSMS), care pot prelucra secvențe foarte lungi de informații prin menținerea unei stări continue, permițându-le să se extindă liniar cu lungimea secvenței.
Această abordare hibridă produce câștiguri substanțiale de performanță. Prin înlocuirea majorității mecanismelor de atenție costisitoare cu aceste straturi de spațiu de stare liniare în timp, modelul poate obține un randament de până la șase ori mai mare pe contexte lungi în comparație cu modelele de transformare de dimensiuni similare, fără o scădere semnificativă a preciziei. Acest lucru îl face ideal pentru sarcini care implică documente lungi sau istorii extinse de chat.
dincolo de arhitectura sa eficientă, Nemotron-Nano introduce un sistem nou pentru gestionarea procesului său de rezolvare a problemelor, oferind dezvoltatorilor un control cu granulație fină asupra comportamentului său. Modelul va fi implicit pentru a genera o urmă de raționament înainte de a oferi un răspuns final, dar dezvoltatorii pot utiliza jetoane simple de control precum `/Think` pentru a solicita în mod explicit acest proces pas cu pas sau`/no_think` pentru a-l ocoli pentru un răspuns mai rapid, director.
Îmbunătățirea în continuare a acestui control este o caracteristică „buget de gândire”. Acest lucru permite dezvoltatorilor să acopere numărul de jetoane pe care modelul le dedică raționamentului său intern înainte de a finaliza un răspuns. Acest mecanism oferă o pârghie crucială pentru echilibrarea preciziei cu latența, o preocupare esențială în aplicațiile de producție, cum ar fi asistența clienților sau agenții autonomi, unde viteza de răspuns este critică.
documentația proprie a lui Nvidia ilustrează acest lucru cu curbele de precizie-versus-budget, arătând modul în care scale de performanță ca adunare simbolică pentru creșterile de raționament. Această caracteristică a fost proiectată în mod deliberat în timpul post-instruirii, în cazul în care aproximativ 5% din datele conțineau urme de raționament trunchiat, permițând acest control bugetar cu granulație fină la timp de inferență.
deschis pentru afaceri: licențiere permisivă și seturi de date masive
într-o mișcare care vizează clar adoptarea rapidă a întreprinderii, sub propriul său, a lansat nemotron-nan-nan Acord de licență pentru model deschis nvidia nvidia . Licența este concepută în mod explicit pentru a fi prietenoasă din punct de vedere comercial, afirmând că modelele sunt utilizabile comercial în afara cutiei. Acest lucru permite organizațiilor să descarce, să modifice și să implementeze în mod liber modelul în producție imediat, fără a negocia o licență separată sau de a plăti taxe legate de utilizarea, veniturile sau numărul de utilizatori.
în mod crucial, NVIDIA nu solicită proprietatea asupra unor rezultate generate de model, lăsând drepturi și responsabilități depline cu dezvoltatorul. Această abordare deschisă este în contrast puternic cu licențele deschise cu niveluri de la alți furnizori, care necesită adesea un acord plătit odată ce o companie ajunge la o anumită scară. De asemenea, dezvoltatorii sunt liberi să creeze și să distribuie modele derivate, încurajând un ecosistem colaborativ.
Licența include, totuși, mai multe condiții standard axate pe o utilizare responsabilă. Întreprinderile nu trebuie să ocolească balustradele de siguranță încorporate fără a implementa înlocuiri comparabile. Orice redistribuire a modelului sau a derivatelor sale trebuie să includă textul de licență și atribuirea corespunzătoare. În plus, utilizarea trebuie să respecte reglementările comerciale și să se alinieze cu orientările de încredere ale AI de încredere ale NVIDIA, iar o clauză de litigii protejează ecosistemul prin încheierea licenței pentru utilizatorii care în judecată pe alții pentru încălcarea modelului. The Massive Nemotron-pre-training-dataset-v1 Compretă un date, oferind transparență fără precedent.
Acest set de date este organizat în patru categorii cheie. Include un set de date orientat către matematică creat cu o nouă conductă pentru a păstra ecuații complexe, un set de date de cod curat pe scară largă de la GitHub cu filtrare cu mai multe etape și un set de date generat sintetic care acoperă domenii de tulpină, academică și raționament. De asemenea, prezintă o nouă versiune a crawl-ului web Nemotron-CC, îmbunătățită cu perechi de întrebări și răspunsuri sintetice traduse în 15 limbi pentru a sprijini capacități multilingve robuste.
Modelul și seturile de date sunt acum disponibile pentru Descărcați pe Hugging Face și prin catalogul modelului Nvidia. Furnizând nu doar un model puternic, ci și vastele date de înaltă calitate pe care a fost instruită, NVIDIA oferă un set de instrumente cuprinzător. Această strategie își propune să împuternicească dezvoltatorii și să accelereze inovația, oferindu-le instrumentele atât pentru eficiența de înaltă performanță, cât și pentru implementare.
Suntem încântați să împărtășim 🏆 NVIDIA NEMOTRON NANO 2, un model de raționament deschis de 9B, care redefini eficiența în AI și a câștigat locul de conducere pe @artificialanlys Intelligence Index clasdboard printre modelele deschise în interiorul… pic.twitter.com/zs5gtdzjsk
-dezvoltator NVIDIA AI (@NVIDIAADev) 18 august, 2025
Compania a lansat, de asemenea Dezvoltatori Mai multe opțiuni pentru reglare fină personalizată.
Dincolo de dimensiunea sa eficientă, modelul are o fereastră mare de context de 128k, permițându-i să proceseze și să motiveze documentele extinse. De asemenea, este extrem de versatil, gestionând mai multe limbi, inclusiv engleză, germană, spaniolă și japoneză și este adept atât la instrucțiunile complexe, cât și la sarcinile de generare a codului, potrivit Nvidia.
Performanța modelului pe referințe cheie ale industriei este locul în care marginea sa competitivă devine clară. În Raport tehnic oficial , nvidia detaliază o suită de rezultate puternice. La raționamentele complexe, realizează 72,1% pe AIME25 și 64,0% la GPQA. Pentru rezolvarea matematică a problemelor, înscrie un impresionant 97,8% la Math500.
Capabilitățile sale se extind în dezvoltarea de software și aderarea instrucțiunilor. Modelul asigură un scor de 71,1% la evaluarea codificării LiveCodeBench și demonstrează o înțelegere robustă a contextului lung cu 78,9% la testul Ruler 128K. La instrucțiunile următoare, ajunge la 90,3% pe Ifeval, prezentându-și fiabilitatea.
aceste rezultate sunt semnificative, deoarece plasează nemotron-nano-9b-v2 înaintea rivalilor săi direcți. Peste bord, reperele prezintă o precizie mai mare decât QWEN3-8B de la Alibaba, un punct comun de comparație în spațiul SLM. Acest lucru stabilește Nemotron-Nano ca o opțiune nouă formidabilă pentru dezvoltatorii care caută performanțe de top într-un pachet compact și eficient.
arhitectură hibridă și raționament controlabil
Subpitarea eficienței model href=”https://research.nvidia.com/labs/adlr/nvidia-nemotron-nano-2/”target=”_ blank”> arhitectură sofisticată hibrid mamba-transformer . Acest design este un răspuns direct la limitările modelelor tradiționale de limbaj mare. Cele mai populare LLM-uri sunt modele de „transformare” pure, care se bazează în întregime pe straturile de atenție. Deși sunt puternice, aceste straturi devin extrem de costisitoare în memorie și calculează pe măsură ce lungimea secvenței de text crește, o problemă care se scalează în mod quadratic.
Pentru a rezolva acest lucru, Nemotron-Nano este construită pe Nemotron-H, o familie de modele care fuzionează arhitectura de transformare standard cu arhitectura mamba inovatoare dezvoltată de cercetătorii la carnegie Mellon și cu princitonul inovator. Mamba încorporează modele de spațiu de stare selective (SSMS), care pot prelucra secvențe foarte lungi de informații prin menținerea unei stări continue, permițându-le să se extindă liniar cu lungimea secvenței.
Această abordare hibridă produce câștiguri substanțiale de performanță. Prin înlocuirea majorității mecanismelor de atenție costisitoare cu aceste straturi de spațiu de stare liniare în timp, modelul poate obține un randament de până la șase ori mai mare pe contexte lungi în comparație cu modelele de transformare de dimensiuni similare, fără o scădere semnificativă a preciziei. Acest lucru îl face ideal pentru sarcini care implică documente lungi sau istorii extinse de chat.
dincolo de arhitectura sa eficientă, Nemotron-Nano introduce un sistem nou pentru gestionarea procesului său de rezolvare a problemelor, oferind dezvoltatorilor un control cu granulație fină asupra comportamentului său. Modelul va fi implicit pentru a genera o urmă de raționament înainte de a oferi un răspuns final, dar dezvoltatorii pot utiliza jetoane simple de control precum `/Think` pentru a solicita în mod explicit acest proces pas cu pas sau`/no_think` pentru a-l ocoli pentru un răspuns mai rapid, director.
Îmbunătățirea în continuare a acestui control este o caracteristică „buget de gândire”. Acest lucru permite dezvoltatorilor să acopere numărul de jetoane pe care modelul le dedică raționamentului său intern înainte de a finaliza un răspuns. Acest mecanism oferă o pârghie crucială pentru echilibrarea preciziei cu latența, o preocupare esențială în aplicațiile de producție, cum ar fi asistența clienților sau agenții autonomi, unde viteza de răspuns este critică.
documentația proprie a lui Nvidia ilustrează acest lucru cu curbele de precizie-versus-budget, arătând modul în care scale de performanță ca adunare simbolică pentru creșterile de raționament. Această caracteristică a fost proiectată în mod deliberat în timpul post-instruirii, în cazul în care aproximativ 5% din datele conțineau urme de raționament trunchiat, permițând acest control bugetar cu granulație fină la timp de inferență.
deschis pentru afaceri: licențiere permisivă și seturi de date masive
într-o mișcare care vizează clar adoptarea rapidă a întreprinderii, sub propriul său, a lansat nemotron-nan-nan Acord de licență pentru model deschis nvidia nvidia . Licența este concepută în mod explicit pentru a fi prietenoasă din punct de vedere comercial, afirmând că modelele sunt utilizabile comercial în afara cutiei. Acest lucru permite organizațiilor să descarce, să modifice și să implementeze în mod liber modelul în producție imediat, fără a negocia o licență separată sau de a plăti taxe legate de utilizarea, veniturile sau numărul de utilizatori.
în mod crucial, NVIDIA nu solicită proprietatea asupra unor rezultate generate de model, lăsând drepturi și responsabilități depline cu dezvoltatorul. Această abordare deschisă este în contrast puternic cu licențele deschise cu niveluri de la alți furnizori, care necesită adesea un acord plătit odată ce o companie ajunge la o anumită scară. De asemenea, dezvoltatorii sunt liberi să creeze și să distribuie modele derivate, încurajând un ecosistem colaborativ.
Licența include, totuși, mai multe condiții standard axate pe o utilizare responsabilă. Întreprinderile nu trebuie să ocolească balustradele de siguranță încorporate fără a implementa înlocuiri comparabile. Orice redistribuire a modelului sau a derivatelor sale trebuie să includă textul de licență și atribuirea corespunzătoare. În plus, utilizarea trebuie să respecte reglementările comerciale și să se alinieze cu orientările de încredere ale AI de încredere ale NVIDIA, iar o clauză de litigii protejează ecosistemul prin încheierea licenței pentru utilizatorii care în judecată pe alții pentru încălcarea modelului. The Massive Nemotron-pre-training-dataset-v1 Compretă un date, oferind transparență fără precedent.
Acest set de date este organizat în patru categorii cheie. Include un set de date orientat către matematică creat cu o nouă conductă pentru a păstra ecuații complexe, un set de date de cod curat pe scară largă de la GitHub cu filtrare cu mai multe etape și un set de date generat sintetic care acoperă domenii de tulpină, academică și raționament. De asemenea, prezintă o nouă versiune a crawl-ului web Nemotron-CC, îmbunătățită cu perechi de întrebări și răspunsuri sintetice traduse în 15 limbi pentru a sprijini capacități multilingve robuste.
Modelul și seturile de date sunt acum disponibile pentru Descărcați pe Hugging Face și prin catalogul modelului Nvidia. Furnizând nu doar un model puternic, ci și vastele date de înaltă calitate pe care a fost instruită, NVIDIA oferă un set de instrumente cuprinzător. Această strategie își propune să împuternicească dezvoltatorii și să accelereze inovația, oferindu-le instrumentele atât pentru eficiența de înaltă performanță, cât și pentru implementare.