Nvidia weszła na konkurencyjną małą arenę modelu AI z wydaniem Nemotron-Nano-9B-V2, potężnego i wydajnego modelu typu open source o 9 miliardach parametrów. Model dostępny jest teraz nowatorska hybrydowa architektura transformatora Mamba zaprojektowana do wysokiej przepustowości na jednym procesorze GPU.

Jego funkcja wyróżniająca się jest unikalnym przełączalnym systemem rozumowania, umożliwiając programistom kontrolowanie procesu „myślenia” modelu w celu zrównoważenia wydajności i opóźnień. Wydanie pozycjonuje NVIDIA jako kluczowy gracz na rosnącym rynku mniejszej, przyjaznej komercyjnie sztucznej inteligencji, bezpośrednio kwestionując ostatnie innowacje.

Ten ruch sygnalizuje strategiczne popychanie do rozwijającej się przestrzeni modelu małego języka (SLM). Gdy branża zmaga się z wysokimi kosztami modeli granicznych, wzrósł zapotrzebowanie na wydajne, ale zdolne alternatywy. Wpis NVIDIA bezpośrednio kwestionuje ostatnie wydania konkurentów, takich jak Alibaba i Deepseek.

Nowy koncentrator w małej modelu Arena

Oferta to drobno dostrojony system zaprojektowany pod kątem dostępności i mocy. Nemotron Nano-9B-V2 jest modelem 9-miliardowym parametrem celowo skompresowanym z większego

To skupienie się na tym, że A10 GPU podkreśla strategię NVIDIA, aby uczynić zaawansowaną AI dla AI dla użytkowników bez wymagania masowego inwestycji sprzętowych. Model został przycięty, aby konkretnie pasować do układu A10.

Cieszymy się, że możemy udostępnić tablicę liderów 🏆 nvidia nemotron nano 2, przełomowy parametr 9b otwarty, wielojęzyczny model rozumowania, który redefiniuje wydajność AI href=”https://twitter.com/artificialanlys?ref_src=twsrc%5etfw”target=”_ blank”>@artificialanlys Wyniki indeksu inteligencji wśród otwartych modeli w… pic.twitter.com/zs5gtdzjsk

-nvidia AI Developer (@nvidiaaidev) 18 sierpnia 2025

firma wydała również 12b i prirund. Deweloperzy więcej opcji niestandardowych dostrajania.

Poza jego wydajnym rozmiarem, model oferuje duże okno kontekstowe 128k, umożliwiając przetwarzanie i rozumowanie przez obszerne dokumenty. Jest również wysoce wszechstronny, obsługujący wiele języków, w tym angielski, niemiecki, hiszpański i japoński, i jest biegły zarówno w złożonych instrukcjach, jak i zadaniach generowania kodu, zgodnie z Nvidia.

Wydajność modelu na kluczowych testach porównawczych branżowych staje się wyraźna. W oficjalny raport techniczny , Nvidia szczegółowo opisuje Suite o silnych wynikach. W przypadku złożonego rozumowania osiąga 72,1% w stosunku do AIME25 i 64,0% na GPQA. W przypadku matematycznego rozwiązywania problemów ocenia imponujące 97,8% na Math500.

Jego możliwości rozciągają się na opracowywanie oprogramowania i przestrzeganie instrukcji. Model zabezpiecza wynik 71,1% oceny kodowania LiveCodeBench i pokazuje solidne zrozumienie długiego kontekstu z 78,9% testem linijki 128K. Po instrukcji osiąga 90,3% na IFEVAL, pokazując jego niezawodność.

Wyniki te są znaczące, ponieważ umieszczają Nemotron-Nano-9b-V2 przed bezpośrednimi rywalami. Wzgórze śladu wykazują wyższą dokładność niż QWEN3-8B Alibaba, co jest wspólnym punktem porównania w przestrzeni SLM. Ustala to Nemotron-Nano jako ogromną nową opcję dla programistów poszukujących wydajności najwyższego poziomu w kompaktowym, wydajnym pakiecie.

Hybrydowa architektura i kontrolowane rozumowanie

Ustawieniem wydajności modelu jest jego Wyrafinowana hybrydowa architektura mamba-transformer . Ten projekt jest bezpośrednią odpowiedzią na ograniczenia tradycyjnych modeli dużych języków. Najpopularniejsze LLM są czystymi „transformatorami”, które polegają całkowicie na warstwach uwagi. Podczas gdy potężne, warstwy te stają się wyjątkowo kosztowne w pamięci i obliczają wraz ze wzrostem długości sekwencji tekstowej, problem, który skaluje się kwadratowo.

Aby rozwiązać to, Nemotron-Nano jest zbudowane na Nemotron-H, rodzinie modeli, które łączą standardową architekturę transformatora z innowacyjną architekturą mamba opracowaną przez naukowców w Carnegie Mellon i Princeton. Mamba zawiera selektywne modele przestrzeni stanu (SSM), które mogą przetwarzać bardzo długie sekwencje informacji poprzez utrzymanie stanu ciągłego, umożliwiając im skalowanie liniowo z długością sekwencji.

To podejście hybrydowe daje znaczne korzyści wydajności. Podstawiając większość kosztownych mechanizmów uwagi tych warstw przestrzeni stanu liniowego, model może osiągnąć do sześciokrotnie wyższą przepustowość w długich kontekstach w porównaniu z modelem transformatorów o podobnej wielkości, bez znacznego spadku dokładności. To sprawia, że idealnie nadaje się do zadań obejmujących długie dokumenty lub obszerne historie czatów.

Poza swoją wydajną architekturą Nemotron-Nano wprowadza nowy system zarządzania procesem rozwiązywania problemów, zapewniając programistom drobną kontrolę nad jego zachowaniem. Model domyślnie generuje ślad rozumowania przed udzielaniem ostatecznej odpowiedzi, ale programiści mogą używać prostych tokenów kontrolnych, takich jak `/Think`, aby wyraźnie poprosić o ten proces krok po kroku lub`/no_think`, aby ominąć go w celu szybszej, bezpośredniej odpowiedzi.

Dalsze zwiększenie tej kontroli jest funkcją „myślenia w budżecie myślenia”. Umożliwia to programistom ograniczenie liczby tokenów, które model poświęca wewnętrznemu rozumowaniu przed zakończeniem odpowiedzi. Mechanizm ten stanowi kluczową dźwignię do równoważenia dokładności opóźnienia, kluczowy problem w aplikacjach produkcyjnych, takich jak obsługa klienta lub agenci autonomiczne, w których prędkość reakcji jest krytyczna.

własna dokumentacja NVIDIA ilustruje to z krzywych dokładności-wersus-budżet, pokazując, jak skaluje się skale wydajności jako dodatek do uzasadnienia. Ta funkcja została celowo zaprojektowana podczas po treningu, gdzie około 5% danych zawierało obcięte ślady rozumowania, umożliwiając tę drobnoziarnistą kontrolę budżetową w czasie wnioskowania.

Otwarte dla biznesu: dopuszczalne licencjonowanie i masywne zestawy danych

w ruchu w ruchu w sprawie szybkiego przedsięwzięcia, NVIDIA wydało NEMOTRON-NANO-NANO-NANO-nan. Own Umowa licencyjna otwartej nvidia otwartego modelu nvidia . Licencja jest wyraźnie zaprojektowana tak, aby była przyjazna komercyjnie, stwierdzając, że modele są użyteczne na rynku po wyjęciu z pudełka. Umożliwia to organizacjom swobodne pobieranie, modyfikowanie i wdrażanie modelu do produkcji bez negocjowania oddzielnej licencji lub płacenia opłat powiązanych z wykorzystaniem, przychodami lub liczbą użytkowników.

Co najważniejsze, NVIDIA nie twierdzi, że własność jakichkolwiek wyników generowanych przez model, pozostawiając pełne prawa i obowiązki z programistą. To otwarte podejście stoi w wyraźnym kontraście z warstwami otwartych licencji od innych dostawców, które często wymagają płatnej umowy, gdy firma osiągnie określoną skalę. Deweloperzy mogą również swobodnie tworzyć i rozpowszechniać modele pochodne, wspierając ekosystem współpracy.

Licencja zawiera jednak kilka standardowych warunków skupionych na odpowiedzialnym użytkowaniu. Przedsiębiorstwa nie mogą ominąć wbudowanych poręczy bezpieczeństwa bez wdrażania porównywalnych wymiany. Wszelkie redystrybucja modelu lub jego pochodnych musi obejmować tekst licencji i właściwe przypisanie. Ponadto użycie musi być zgodne z przepisami handlowymi i dostosować się do godnych zaufania wytycznych AI NVIDIA, a klauzula sądowa chroni ekosystem poprzez zakończenie licencji dla użytkowników, którzy pozwalają innym na naruszenie przez model.

w tym, co NVIDIA nazywa „pierwszą dla wiodącego modelu otwartego, takiego jak ten,„ firma uwolniła się również nad danymi używanymi przez modelu. Masywne