Nvidia tritt mit Nemotron-Nano 9B V2 mit togglabbarem Argumentation ein kleines KI-Modellrennen ein

nvidia hat mit der Veröffentlichung von Nemotron-Nano-9b-V2, einem leistungsstarken und effizienten Open-Source-Modell mit 9 Milliarden Parametern, in die wettbewerbsfähige kleine KI-Modellarena eingetreten. Das Modell ist ab sofort verfügbar und verfügt über eine neuartige Hybrid-Mamba-Transformator-Architektur, die für einen hohen Durchsatz einer einzelnen GPU entwickelt wurde. Die Release positioniert Nvidia als Schlüsselakteur auf dem wachsenden Markt für kleinere, kommerziell freundliche KI, die die jüngsten Innovationen direkt herausfordern. Während sich die Branche mit den hohen Kosten von Frontier-Modellen auseinandersetzt, ist die Nachfrage nach effizienten, aber fähigen Alternativen gestiegen. Der Eintrag von Nvidia fordert die jüngsten Veröffentlichungen von Konkurrenten wie Alibaba und Deepseek direkt heraus. Das Angebot ist ein fein abgestimmtes System für Zugänglichkeit und Strom. Das Nemotron-Nano-9b-V2 ist ein 9-Milliarden-Parameter-Modell, das absichtlich aus einem größeren 12-billion-Parameter-Basis-Modell komprimiert ist. Dieses Schnitt war eine strategische Entscheidung, um sicherzustellen, dass es effizient auf einer einzelnen NVIDIA A10-GPU ausgeführt werden kann, einem beliebten und weit verbreiteten Hardware-Stück im Unternehmenssektor. Das Modell wurde beschnitten, um speziell in den A10-Chip zu passen. href=”https://twitter.com/artificialanlys?ref_src=twsrc%5etfw”target=”_ leer”>@artificialanlys Intelligenz-Index-Rangliste unter offenen Modellen innerhalb… pic.twitter.com/zs5gtdzjsk

-Nvidia AI-Entwickler (@nvidiaaidev) August, August 2025

offizieller technischer Bericht detailliert eine Reihe starker Ergebnisse. Bei komplexen Argumentation erreicht es 72,1% für Aime25 und 64,0% bei GPQA. Für die mathematische Problemlösung erzielt es beeindruckende 97,8% für Math500. Das Modell sichert eine 71,1% ige Punktzahl für die Codierungsbewertung von LiveCodebench und zeigt mit 78,9% im Ruler 128K-Test ein robustes Langkontext-Verständnis. Bei der Anweisung erreicht es 90,3% für IFEVAL und zeigt seine Zuverlässigkeit. Auf ganzer Linie zeigen die Benchmarks eine höhere Genauigkeit als Alibabas QWEN3-8B, ein gemeinsamer Vergleichspunkt im SLM-Raum. Dadurch wird Nemotron-Nano als eine beeindruckende neue Option für Entwickler festgelegt, die eine erstklassige Leistung in einem kompakten, effizienten Paket suchen. href=”https://research.nvidia.com/labs/adlr/nvidia-nemotron-nano-2/”target=”_ leer”> entwickelte Hybrid-Mamba-Transformator-Architektur . Dieses Design ist eine direkte Reaktion auf die Grenzen herkömmlicher Großsprachenmodelle. Die meisten beliebten LLMs sind reine „Transformator“-Modelle, die sich ausschließlich auf Aufmerksamkeitsschichten verlassen. Obwohl diese Ebenen leistungsfähig sind, werden sie im Gedächtnis und berechnen, wenn die Länge der Textsequenz wächst. Ein Problem, das quadratisch skaliert.

Um dies zu lösen, basiert Nemotron-Nano auf Nemotron-H, eine Familie von Models, die die Standard-Transformatorarchitektur mit der innovativen Mamba-Architektur entwickelt hat, die von Forschern bei Carnegie Mellon und Princon-Architektur entwickelt wurde. Mamba enthält selektive Zustandsraummodelle (SSMs), die sehr lange Informationssequenzen verarbeiten können, indem ein kontinuierlicher Zustand aufrechterhalten wird, sodass sie linear mit der Sequenzlänge skalieren können. Durch das Ersetzen der meisten kostspieligen Aufmerksamkeitsmechanismen durch diese linearen Zustandsraumschichten kann das Modell in langen Kontexten einen bis zu sechsmal höheren Durchsatz im Vergleich zu ähnlich großen Transformatormodellen ohne signifikanten Genauigkeitsabfall erreichen. Dies macht es ideal für Aufgaben, die lange Dokumente oder umfangreiche Chat-Historien beinhalten. Das Modell ist standardmäßig, um eine Argumentationsverfolgung zu generieren, bevor eine endgültige Antwort bereitgestellt wird. Entwickler können jedoch einfache Steuertoken wie”/Think”verwenden, um diesen Schritt-für-Schritt-Prozess ausdrücklich fordern, oder `/no_think`, um es für eine schnellere, direkte Antwort zu umgehen. Dies ermöglicht es Entwicklern, die Anzahl der Token zu begrenzen, die das Modell vor dem Abschluss einer Antwort der internen Argumentation widmet. Dieser Mechanismus bietet einen entscheidenden Hebel für die Ausgleichsgenauigkeit mit Latenz, ein wesentliches Anliegen in Produktionsanwendungen wie Kundenunterstützung oder autonome Agenten, bei denen die Reaktionsgeschwindigkeit von entscheidender Bedeutung ist. Dieses Merkmal wurde absichtlich während des Trainings nach dem Training entwickelt, wobei etwa 5% der Daten verkürzte Argumentationsspuren enthielten, was diese feinkörnige Budgetkontrolle zum Zeitpunkt der Inferenz ermöglichte. eigenes Lenisive NVIDIA Offene Modelllizenzvereinbarung . Die Lizenz ist ausdrücklich so konzipiert, dass sie kommerziell freundlich sind, und besagt, dass die Modelle kommerziell aus dem Schachtel verwendbar sind. Auf diese Weise können Unternehmen das Modell sofort frei herunterladen, ändern und bereitstellen, ohne eine separate Lizenz zu verhandeln oder Gebühren, die mit der Nutzung, Einnahmen oder Nutzungszählungen gebunden sind. Dieser offene Ansatz steht in starkem Kontrast zu abgestuften offenen Lizenzen anderer Anbieter, die häufig eine bezahlte Vereinbarung erfordern, sobald ein Unternehmen eine bestimmte Skala erreicht hat. Entwickler sind auch frei, Ableitungsmodelle zu erstellen und zu verteilen und ein kollaboratives Ökosystem zu fördern. Unternehmen dürfen die integrierten Sicherheitsberichte nicht umgehen, ohne vergleichbare Ersetzungen zu implementieren. Jede Umverteilung des Modells oder seiner Derivate muss den Lizenztext und die ordnungsgemäße Zuordnung enthalten. Darüber hinaus muss die Verwendung der Handelsvorschriften einhalten und mit den vertrauenswürdigen KI-Richtlinien von Nvidia übereinstimmen, und eine Rechtsstreitklausel schützt das Ökosystem, indem die Lizenz für Benutzer beendet wird, die andere wegen Verstoßes durch das Modell verklagen. Das massive

Nvidia tritt mit Nemotron-Nano 9B V2 mit togglabbarem Argumentation ein kleines KI-Modellrennen ein

Published by All Things Windows on August 19, 2025

IT Info

Großbritannien lässt die Nachfrage nach der Backdoor nach intensiver US-Regierung fallen nach starkem Druck der US-Regierung

IT Info

Nissan: Simulation der Aufprallfestigkeit von Autos in virtuellen Umgebungen

IT Info

Fix: CAA90049 Anmeldefehler in Microsoft 365-Apps.

Nvidia tritt mit Nemotron-Nano 9B V2 mit togglabbarem Argumentation ein kleines KI-Modellrennen ein

Published by All Things Windows on August 19, 2025

Related Posts

IT Info

Großbritannien lässt die Nachfrage nach der Backdoor nach intensiver US-Regierung fallen nach starkem Druck der US-Regierung

IT Info

Nissan: Simulation der Aufprallfestigkeit von Autos in virtuellen Umgebungen

IT Info

Fix: CAA90049 Anmeldefehler in Microsoft 365-Apps.