nvidia hat mit der Veröffentlichung von Nemotron-Nano-9b-V2, einem leistungsstarken und effizienten Open-Source-Modell mit 9 Milliarden Parametern, in die wettbewerbsfähige kleine KI-Modellarena eingetreten. Das Modell ist ab sofort verfügbar und verfügt über eine neuartige Hybrid-Mamba-Transformator-Architektur, die für einen hohen Durchsatz einer einzelnen GPU entwickelt wurde. Die Release positioniert Nvidia als Schlüsselakteur auf dem wachsenden Markt für kleinere, kommerziell freundliche KI, die die jüngsten Innovationen direkt herausfordern. Während sich die Branche mit den hohen Kosten von Frontier-Modellen auseinandersetzt, ist die Nachfrage nach effizienten, aber fähigen Alternativen gestiegen. Der Eintrag von Nvidia fordert die jüngsten Veröffentlichungen von Konkurrenten wie Alibaba und Deepseek direkt heraus. Das Angebot ist ein fein abgestimmtes System für Zugänglichkeit und Strom. Das Nemotron-Nano-9b-V2 ist ein 9-Milliarden-Parameter-Modell, das absichtlich aus einem größeren 12-billion-Parameter-Basis-Modell komprimiert ist. Dieses Schnitt war eine strategische Entscheidung, um sicherzustellen, dass es effizient auf einer einzelnen NVIDIA A10-GPU ausgeführt werden kann, einem beliebten und weit verbreiteten Hardware-Stück im Unternehmenssektor. Das Modell wurde beschnitten, um speziell in den A10-Chip zu passen. href=”https://twitter.com/artificialanlys?ref_src=twsrc%5etfw”target=”_ leer”>@artificialanlys Intelligenz-Index-Rangliste unter offenen Modellen innerhalb… pic.twitter.com/zs5gtdzjsk
-Nvidia AI-Entwickler (@nvidiaaidev) August, August 2025
Um dies zu lösen, basiert Nemotron-Nano auf Nemotron-H, eine Familie von Models, die die Standard-Transformatorarchitektur mit der innovativen Mamba-Architektur entwickelt hat, die von Forschern bei Carnegie Mellon und Princon-Architektur entwickelt wurde. Mamba enthält selektive Zustandsraummodelle (SSMs), die sehr lange Informationssequenzen verarbeiten können, indem ein kontinuierlicher Zustand aufrechterhalten wird, sodass sie linear mit der Sequenzlänge skalieren können. Durch das Ersetzen der meisten kostspieligen Aufmerksamkeitsmechanismen durch diese linearen Zustandsraumschichten kann das Modell in langen Kontexten einen bis zu sechsmal höheren Durchsatz im Vergleich zu ähnlich großen Transformatormodellen ohne signifikanten Genauigkeitsabfall erreichen. Dies macht es ideal für Aufgaben, die lange Dokumente oder umfangreiche Chat-Historien beinhalten. Das Modell ist standardmäßig, um eine Argumentationsverfolgung zu generieren, bevor eine endgültige Antwort bereitgestellt wird. Entwickler können jedoch einfache Steuertoken wie”/Think”verwenden, um diesen Schritt-für-Schritt-Prozess ausdrücklich fordern, oder `/no_think`, um es für eine schnellere, direkte Antwort zu umgehen. Dies ermöglicht es Entwicklern, die Anzahl der Token zu begrenzen, die das Modell vor dem Abschluss einer Antwort der internen Argumentation widmet. Dieser Mechanismus bietet einen entscheidenden Hebel für die Ausgleichsgenauigkeit mit Latenz, ein wesentliches Anliegen in Produktionsanwendungen wie Kundenunterstützung oder autonome Agenten, bei denen die Reaktionsgeschwindigkeit von entscheidender Bedeutung ist. Dieses Merkmal wurde absichtlich während des Trainings nach dem Training entwickelt, wobei etwa 5% der Daten verkürzte Argumentationsspuren enthielten, was diese feinkörnige Budgetkontrolle zum Zeitpunkt der Inferenz ermöglichte. eigenes Lenisive NVIDIA Offene Modelllizenzvereinbarung . Die Lizenz ist ausdrücklich so konzipiert, dass sie kommerziell freundlich sind, und besagt, dass die Modelle kommerziell aus dem Schachtel verwendbar sind. Auf diese Weise können Unternehmen das Modell sofort frei herunterladen, ändern und bereitstellen, ohne eine separate Lizenz zu verhandeln oder Gebühren, die mit der Nutzung, Einnahmen oder Nutzungszählungen gebunden sind. Dieser offene Ansatz steht in starkem Kontrast zu abgestuften offenen Lizenzen anderer Anbieter, die häufig eine bezahlte Vereinbarung erfordern, sobald ein Unternehmen eine bestimmte Skala erreicht hat. Entwickler sind auch frei, Ableitungsmodelle zu erstellen und zu verteilen und ein kollaboratives Ökosystem zu fördern. Unternehmen dürfen die integrierten Sicherheitsberichte nicht umgehen, ohne vergleichbare Ersetzungen zu implementieren. Jede Umverteilung des Modells oder seiner Derivate muss den Lizenztext und die ordnungsgemäße Zuordnung enthalten. Darüber hinaus muss die Verwendung der Handelsvorschriften einhalten und mit den vertrauenswürdigen KI-Richtlinien von Nvidia übereinstimmen, und eine Rechtsstreitklausel schützt das Ökosystem, indem die Lizenz für Benutzer beendet wird, die andere wegen Verstoßes durch das Modell verklagen. Das massive