Nvidia har gått inn i den konkurrerende lille AI-modellarenaen med utgivelsen av Nemotron-Nano-9B-V2, en kraftig og effektiv åpen kildekode-modell på 9 milliarder dollar. Tilgjengelige nå har modellen en ny hybrid mamba-transformatorarkitektur designet for høy gjennomstrømning på en enkelt GPU.

Dens fremtredende funksjon er et unikt byttbart resonnementssystem, slik at utviklere kan kontrollere modellens”tenkning”-prosess for å balansere ytelse og latens. Utgivelsen posisjonerer NVIDIA som en nøkkelaktør i det voksende markedet for mindre, kommersielt vennlig AI, direkte utfordrende nyere innovasjoner.

Dette trekket signaliserer et strategisk trykk inn i det spirende små språkmodellen (SLM). Mens bransjen takler de høye kostnadene ved grensemodeller, har etterspørselen etter effektive, men dyktige alternativer økt. NVIDIAs oppføring utfordrer direkte nylige utgivelser fra konkurrenter som Alibaba og DeepSeek.

12-billion-parameter base model. Denne beskjæringen var en strategisk beslutning om å sikre at den kunne kjøre effektivt på en enkelt NVIDIA A10 GPU, et populært og bredt distribuert stykke maskinvare i bedriftssektoren.

Dette fokuset på A10 GPU understreker NVIDIAs strategi for å gjøre avanserte AI tilgjengelig for et bredere spekter av brukere uten å kreve massehardware-investeringer. Modellen ble beskjæret for spesifikt å passe til A10-brikken.

Vi er glade for å dele toppliste-topping 🏆 Nvidia Nemotron Nano 2, en banebrytende 9B-parameter åpen, flerspråklig resonnementsmodell som omdefinerer effektiviteten i AI og tjente ledende plassering på @ArtificialanLys Intelligence Index Leaderboard blant åpne modeller innen… pic.twitter.com/zs5gtdzjsk

-nvidia ai utvikler (@nvidiaaidev) august 18, 2025 the Compasy

Utover den effektive størrelsen, kan modellen skryte av et stort 128K-kontekstvindu, slik at den kan behandle og resonnere over omfattende dokumenter. Det er også svært allsidig, håndtering av flere språk inkludert engelsk, tysk, spansk og japansk, og er flink til både kompleks instruksjonsoppgaver og kodeproduksjonsoppgaver, ifølge Nvidia.

Modellens ytelse på nøkkelindustriens benchmarks er der konkurransefortrinnet blir klart. I sin offisiell teknisk rapport , NVIDIA detaljer en rekke sterke resultater. Ved kompleks resonnement oppnår den 72,1% på AIME25 og 64,0% på GPQA. For matematisk problemløsing scorer det imponerende 97,8% på Math500.

Dens evner strekker seg til programvareutvikling og instruksjonsadhenger. Modellen sikrer en score på 71,1% på LiveCodeBench-kodingsevalueringen og demonstrerer robust langkontekstforståelse med 78,9% på linjal 128K-testen. Ved instruksjon etter, når den 90,3% på IFeVal, og viser frem påliteligheten.

Disse resultatene er viktige fordi de plasserer Nemotron-Nano-9b-V2 foran sine direkte rivaler. Overalt viser referansene høyere nøyaktighet enn Alibabas Qwen3-8b, et vanlig sammenligningspunkt på SLM-rommet. Dette etablerer Nemotron-Nano som et formidabelt nytt alternativ for utviklere som søker topp ytelse i en kompakt, effektiv pakke.

hybridarkitektur og kontrollerbar resonnement

Underbygging av modellens effektivitet er dens sofistikert hybrid mamba-transformator arkitektur . Denne designen er en direkte respons på begrensningene i tradisjonelle store språkmodeller. De fleste populære LLM-er er rene”transformator”-modeller, som helt er avhengige av oppmerksomhetslag. Mens de er kraftige, blir disse lagene ekstremt kostbare i minnet og beregner etter hvert som lengden på tekstsekvensen vokser, et problem som skalerer kvadratisk.

For å løse dette er Nemotron-Nano bygget på Nemotron-H, en familie av modeller som smelter standard Transformator-arkitekturen med den innovative Mamba-arkitekturen som er utviklet av forskere ved forskning på standard Transformator-arkitekturen med den innovative Mamba-arkitekturen som er utviklet av forskningsforskere ved å smelte MAMBA inneholder selektive tilstandsromsmodeller (SSMS), som kan behandle veldig lange sekvenser av informasjon ved å opprettholde en kontinuerlig tilstand, slik at de kan skalere lineært med sekvenslengde.

Denne hybridtilnærmingen gir betydelige ytelsesgevinster. Ved å erstatte de fleste av de kostbare oppmerksomhetsmekanismene med disse lineære tidens rom-lag, kan modellen oppnå opptil seks ganger høyere gjennomstrømning på lange sammenhenger sammenlignet med lignende størrelse transformatormodeller, uten et betydelig fall i nøyaktigheten. Dette gjør det ideelt for oppgaver som involverer lange dokumenter eller omfattende chathistorier.

Utover den effektive arkitekturen introduserer Nemotron-Nano et nytt system for å håndtere sin problemløsningsprosess, og gi utviklere finkornet kontroll over atferden. Modellen er standard for å generere et resonnementspor før du gir et endelig svar, men utviklere kan bruke enkle kontrolltokener som `/Think` for å eksplisitt be om denne trinn-for-trinn-prosessen eller`/NO_THINK` for å omgå den for en raskere, direkte respons.

ytterligere å øke denne kontrollen er en raskere”tenkende budsjett”-funksjon. Dette gjør at utviklere kan takle antall symboler modellen dedikerer til sin interne resonnement før de fullfører et svar. Denne mekanismen gir en avgjørende spak for å balansere nøyaktighet med latens, en viktig bekymring i produksjonsapplikasjoner som kundesupport eller autonome agenter der responshastigheten er kritisk.

Nvidias egen dokumentasjon illustrerer dette med nøyaktighets-versus-budsjett, og viser hvordan ytelsesskala som token-godtgjørelsen for resonnement øker. Denne funksjonen ble bevisst konstruert under etteropplæring, hvor omtrent 5% av dataene inneholdt avkortede resonnementspor, noe som muliggjorde denne finkornede budsjettkontrollen på inferensetid.

Åpen for virksomhet: tillatt lisensiering og massiv datasett

i et trekk som er klart på en massiv datasett. Nemotron-nano-9b-v2 under sitt eget permissive nvidia open model lisensavtale . Lisensen er eksplisitt designet for å være kommersielt vennlig, og sier at modellene er kommersielt brukbare ut av boksen. Dette gjør at organisasjoner fritt kan laste ned, endre og distribuere modellen i produksjon umiddelbart uten å forhandle om en egen lisens eller betale gebyrer knyttet til bruk, inntekter eller brukertall.

Avgjørende krever NVIDIA ikke eierskap til noen output som er generert av modellen, og etterlater fulle rettigheter og ansvar for utvikleren. Denne åpne tilnærmingen står i sterk kontrast til lagdelt åpne lisenser fra andre leverandører, som ofte krever en betalt avtale når et selskap når en viss skala. Utviklere står også fritt til å lage og distribuere derivatmodeller, og fremme et samarbeidende økosystem.

Lisensen inkluderer imidlertid flere standardbetingelser fokusert på ansvarlig bruk. Foretak må ikke omgå innebygde sikkerhets rekkverk uten å implementere sammenlignbare erstatninger. Enhver omfordeling av modellen eller dens derivater må inneholde lisensteksten og riktig attribusjon. Videre må bruken i samsvar med handelsforskrifter og samsvare med NVIDIAs pålitelige AI-retningslinjer, og en rettstvistbestemmelse beskytter økosystemet ved å avslutte lisensen for brukere som saksøker andre over krenkelse av modellen.

I det NVIDIA ringer”en første for en ledende modell. Den massive nemotron-remotron til å bli. av høykvalitetsdata, som tilbyr enestående åpenhet.

Dette datasettet er organisert i fire viktige kategorier. Det inkluderer et matematikkfokusert datasett opprettet med en ny rørledning for å bevare komplekse ligninger, et storstilt kuratert kodedatasett fra GitHub med flertrinnsfiltrering, og et syntetisk generert datasett som dekker STEM, akademiske og resonnerende domener. Den har også en ny versjon av Nemotron-CC Web Crawl, forbedret med syntetiske spørsmål-og-svar-par oversatt til 15 språk for å støtte robuste flerspråklige evner.

Modellen og datasettene er nå tilgjengelig for Last ned på Hugging Face og gjennom NVIDIAs modellkatalog. Ved å tilby ikke bare en kraftig modell, men også de enorme dataene av høy kvalitet den ble opplært på, tilbyr Nvidia et omfattende verktøysett. Denne strategien tar sikte på å styrke utviklere og fremskynde innovasjon ved å gi dem verktøyene for både høy ytelse og distribusjonseffektivitet.

Categories: IT Info