nvidia har avslöjat Rubin CPX, en ny klass av GPU-specialbyggda för att påskynda den beräkningsintensiva”kontextfasen”av AI-slutsatsen. Tillkännagivandet idag är chipet utformat för att hantera massiva arbetsbelastningar med över en miljon symboler, såsom videoproduktion och storskalig kodanalys.

Denna arkitektoniska innovation, som NVIDIA kallar”uppdelad slutsats”, skiljer behandlingsuppgifter för att dramatiskt öka effektiviteten. Rubin CPX är en del av den kommande Vera Rubin-plattformen, som först retades på GTC 2025 och förväntas i slutet av 2026.

Flytta Skapar en ny, specialiserad hårdvarukategori som syftar till att förbättra lönsamheten för AI-fabriker. Det utvidgar också NVIDIAs dominans över konkurrenter, av vilka många fortfarande kämpar för att utveckla alternativ för allmänna ändamål.

Den datortunga förinställningsfasen kan orsaka långa förseningar-ibland minuter-innan det första symbolet för ett svar visas. Enligt Shar Narasimhan, en produktdirektör på NVIDIA, tvingas en enda GPU för allmänt syfte att hantera båda uppgifterna när det bara är verkligen optimerat för en, vilket skapar en arkitektonisk kompromiss som hindrar effektiviteten.

Lösningen är en arkitektonisk skiftning Nvidia kallar”avviker.”Kärnidén är att bearbeta dessa faser oberoende, vilket möjliggör riktad optimering av dator-och minnesresurser. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/” target=”_blank”>improves throughput, reduces latency, and enhances overall resource utilization.

This is not just a theoretical concept. NVIDIA har redan bevisat strategins kraft i programvara och använt sitt Dynamo-orkestreringslager för att intelligent dirigera uppgifter över sin befintliga Blackwell-hårdvara.

Denna mjukvarubaserade uppdelning var avgörande i Ställa in nya prestanda i de senaste MLPERF-inferensresultaten . Rubin CPX representerar nu den fysiska manifestationen av denna beprövade strategi och flyttar från mjukvaruoptimering till specialbyggd kisel.

Detta fokus på specialiserade hårdvarusignaler en mognad av marknaden. Den rör sig utöver att helt enkelt lägga till mer rå kraft till en enda chipdesign och mot en mer sofistikerad, fullstackoptimering av hela AI-arbetsflödet. T

Det är en central princip i företagets “AI Factory”-vision, där maximering av prestanda och avkastning på investeringar är det ultimata målet.

under huven: Rubin CPX och Vera Rubin NVL144-plattformen

The Rubin Cpx GPU, byggd Rubin NVL144-plattform

The Rubin Cpx GPU, byggd på den nästa RUBIN-RUBIN-AMEKLANDEN

The Rubin Cpx GPU, BEGÄNSA ATT NÄSTA RUBIN RUBIN AMEDALE ASE EN SPECIALE AS EN SPECIALE ASPECIALE konstruerad för kontextfasen. Den levererar en formidabel 30 petaflops av NVFP4-dator och är utrustad med 128 GB GDDR7-minne.

Enligt NVIDIA är detta ett avsiktligt och kostnadseffektivt designval; by opting for GDDR7 over the more expensive High Bandwidth Memory (HBM) typically used in generation-focused GPUs, the company can provide adequate performance for the compute-bound prefill task while significantly improving the system’s overall return on investment.

Beyond raw compute, the chip boasts a critical performance enhancement: Tre gånger snabbare uppmärksamhet acceleration jämför med den nuvarande generation gb300 nvl7 nvl7 nvl7-systemet. Metric, eftersom uppmärksamhetsmekanismen är beräkningshjärtat i transformatormodeller. Acceleration av att det är viktigt för att effektivt bearbeta de extremt långa datasekvenserna som finns i miljoner-token-sammanhang.

GPU inkluderar också dedicerat hårdvarustöd för videoavkodning och kodning, direkt att besvara kraven på tillväxthögvärde-applikationer. Högpresterande uppdelad serveringsplattform inrymd i ett enda rack.

Det integrerade systemet är ett kraftcenter som kombinerar 144 Rubin CPX GPU för kontextbehandling, 144 Standard Rubin GPU för genereringsfasen och 36 VERA CPU: er. Denna konfiguration levererar en häpnadsväckande 8 exaflops av total NVFP4-datorkraft-en 7,5-faldig ökning över den redan formidabla GB300 NVL72.

Systemnivåspecifikationerna är lika imponerande, med 100 TB med höghastighetsminne och 1,7 petabyte per andra minnesbandewid. Hela racket är sammankopplat med antingen Quantum-X800 Infiniband eller Spectrum-X Ethernet och orkestreras av NVIDIA Dynamo-programvaran. Den fullständiga plattformen förväntas vara tillgänglig i slutet av 2026.

Utökning av ledningen: Nvidia fördjupar sin konkurrenskraftiga vallgrav

Detta tillkännagivande landar vid en svår tid för Nvidias rivaler. Hela teknikindustrin tävlar för att utveckla egna AI-acceleratorer, från Amazons trainiumchips till Metas MTIA-processorer. Ändå har många kämpat med den enorma svårigheten med chipdesign.

Microsoft, till exempel, har mött betydande bakslag med sina interna kiselprojekt, med sitt’Braga’chip som enligt uppgift försenats och underpresterande. Medan konkurrenterna fortfarande försöker bygga en enda GPU för att matcha Nvidias allmänna prestanda, är marknadsledaren redan att segmentera problemutrymmet med specialiserade medprocessorer.

även direkt rival AMD, som nyligen lanserade ett direkt angrepp med sin instinkt MI350-serie, är fokuserad på en monolitisk design. NVIDIA’s disaggregated approach represents a fundamentally different architectural philosophy.

The strategy seems to echo a sentiment previously expressed by NVIDIA CEO Jensen Huang, who once asked, “What’s the point of building an ASIC if it’s not going to be better than the one you can buy?”

By creating a chip that is demonstrably better for a specific, high-value task, Nvidia förstärker sitt marknadsledning.

Shar Narasimhan, en produktdirektör på Nvidia, sa att den nya arkitekturen”kommer att öka produktiviteten och prestandan för AI-fabriker dramatiskt.”Med sin ankomst planerad i slutet av 2026 bygger Nvidia inte bara chips; Det är arkitekterande framtiden för AI-datacentret, en specialiserad komponent i taget.

Categories: IT Info