Nvidia enthüllt Rubin CPX, eine spezialisierte GPU zur Beschleunigung von Langkontext-AI-Inferenz

nvidia hat den Rubin CPX vorgestellt, eine neue Klasse von GPU-speziell, um die rechenintensive”Kontextphase”der KI-Inferenz zu beschleunigen. Der heute angekündigte Chip ist so konzipiert, dass er mit über einer Million Token massive Workloads behandelt, wie z. B. Videogenerierung und großflächige Codeanalyse. Der Rubin CPX ist Teil der bevorstehenden Vera Rubin-Plattform, die zum ersten Mal bei GTC 2025 geärgert wurde und Ende 2026 erwartet wird. target=”_ leer”> Bewegung Erstellt eine neue, spezialisierte Hardware-Kategorie, die darauf abzielt, die Rentabilität von AI-Fabriken zu verbessern. Es erweitert auch die Dominanz von Nvidia über Wettbewerber, von denen viele immer noch Schwierigkeiten haben, allgemeine Alternativen zu entwickeln.

Disaggregierte Inferenz: Eine neue Architektur für die härtesten Workloads von AI

Die Strategie befasst sich mit einem grundlegenden Engpass in der modernen KI. Wie Nvidia erklärt, ist Inferenz keine einzige Aufgabe, sondern zwei unterschiedliche Workloads mit unterschiedlichen Anforderungen. Die zweite, die”Generation”oder”Dekodieren”-Phase, ist speicherintensiv und erzeugt das Ausgangsmarke von Token. Für Anwendungen mit massiven Eingaben entsteht ein erhebliches Leistungsproblem. Laut Shar Narasimhan, einem Produktdirektor bei NVIDIA, ist eine einzelne allgemeine GPU gezwungen, beide Aufgaben zu erledigen, wenn sie nur für einen wirklich optimiert ist, was einen architektonischen Kompromiss erzeugt, der die Effizienz behindert. Die Kernidee besteht darin, diese Phasen unabhängig zu verarbeiten und die gezielte Optimierung von Rechen-und Speicherressourcen zu ermöglichen. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-ect-for-1M-token-context-workloads/”target=”_ leer”> Verbessert den Durchsatz, reduziert die Latenz. NVIDIA hat bereits die Stromversorgung der Strategie in der Software unter Verwendung der Dynamo Orchestration-Ebene bewiesen, um Aufgaben intelligent über seine vorhandene Blackwell-Hardware weiterzuleiten. href=”https://developer.nvidia.com/blog/nvidia-blackwell-ultra-sets-new-inference-records-in-mlperf-debut/”target=”_ leer”> neue Leistungsaufzeichnungen in den neuesten MLPERF-Inferenzergebnissen einstellen . Der Rubin CPX repräsentiert nun die physische Manifestation dieser bewährten Strategie, die sich von der Softwareoptimierung zum speziell gebauten Silizium überschreitet. Es bewegt sich über ein einfacheres Fügen Sie einem einzelnen Chipdesign über eine einfachere Fühe zu, auf eine anspruchsvollere Optimierung des gesamten KI-Workflows in vollem Umfang zu führen. T

Es ist ein zentraler Grundsatz des „AI-Werks“ des Unternehmens, bei dem die Maximierung der Leistung und die Rendite der Investition das ultimative Ziel ist. Für die Kontextphase. Es liefert eine beeindruckende 30 Petaflops NVFP4-Compute und ist mit 128 GB GDDR7-Speicher ausgestattet. Durch die Entscheidung für GDDR7 über den teureren Hochbandbreitenspeicher (HBM), der normalerweise in der generationsorientierten GPUs verwendet wird, kann das Unternehmen eine angemessene Leistung für die Aufgabe von Rechnungsgebäude bieten und gleichzeitig die Gesamtrendite des Systems in Anlage investiert. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-ect-for-1M-token-context-workloads/”target=”_ leer”> Dreimal föigere Aufmerksamkeit Acceleration Mit der aktuellen Generation gb300 nl72 system. Metrik, da der Aufmerksamkeitsmechanismus das rechnergestützte Herz der Transformatormodelle ist. Beschleunigung Es ist wichtig für die effiziente Verarbeitung der extrem langen Datensequenzen in den Millionen gequerdigten Kontexten. Hochleistungsdisaggregierte Servierplattform in einem einzigen Rack. Diese Konfiguration liefert erstaunliche 8 Exaflops der gesamten NVFP4-Rechenleistung-ein 7,5-facher Anstieg gegenüber den bereits beeindruckenden GB300 NVL72. Das gesamte Rack ist entweder mit Quantum-X800 InfiniBand oder Spectrum-X Ethernet miteinander verbunden und von der NVIDIA-Dynamo-Softwareplattform orchestriert. Die vollständige Plattform wird voraussichtlich Ende 2026 verfügbar sein. Die gesamte Tech-Branche rast zur Entwicklung proprietärer KI-Beschleuniger, von den Trainienchips von Amazon bis zu den MTIA-Prozessoren von Meta. Dennoch haben viele mit der immensen Schwierigkeit des Chip-Designs zu kämpfen. Während die Wettbewerber immer noch versuchen, eine einzelne GPU für die allgemeine Leistung von NVIDIA aufzubauen, segmentiert der Marktführer bereits den Problemraum mit speziellen Co-Processoren. Der disaggregierte Ansatz von Nvidia stellt eine grundsätzlich andere architektonische Philosophie dar. Nvidia verstärkt seine Marktführung. Mit seiner Ankunft für Ende 2026 baut Nvidia nicht nur Chips. Es architektiert die Zukunft des AI-Rechenzentrums, eine spezialisierte Komponente gleichzeitig.

Nvidia enthüllt Rubin CPX, eine spezialisierte GPU zur Beschleunigung von Langkontext-AI-Inferenz

Published by All Things Windows on September 9, 2025

Disaggregierte Inferenz: Eine neue Architektur für die härtesten Workloads von AI

IT Info

Remote-Management-Tools, die von ESIM betrieben werden

IT Info

AIs”Original Sin”: Untersuchung enthüllt Tech-Giganten, die Millionen von YouTube-Videos abkratzen, um Models zu trainieren

IT Info

Bytedance fordert die „Nano-Banane“ von Google mit dem neuen KI-Bildmodell von Seedream 4.0 heraus

Nvidia enthüllt Rubin CPX, eine spezialisierte GPU zur Beschleunigung von Langkontext-AI-Inferenz

Published by All Things Windows on September 9, 2025

Disaggregierte Inferenz: Eine neue Architektur für die härtesten Workloads von AI

Related Posts

IT Info

Remote-Management-Tools, die von ESIM betrieben werden

IT Info

AIs”Original Sin”: Untersuchung enthüllt Tech-Giganten, die Millionen von YouTube-Videos abkratzen, um Models zu trainieren

IT Info

Bytedance fordert die „Nano-Banane“ von Google mit dem neuen KI-Bildmodell von Seedream 4.0 heraus