NVIDIA zaprezentuje Rubin CPX, wyspecjalizowany procesor graficzny w celu przyspieszenia wnioskowania AI długiego kontaktu

Nvidia zaprezentowało Rubin CPX, nową klasę GPU specjalnie zbudowanego w celu przyspieszenia „fazy kontekstowej” wysiłku AI. Ogłoszony dzisiaj, chip został zaprojektowany do obsługi ogromnych obciążeń z ponad milionem tokenów, takich jak generowanie wideo i analiza kodu na dużą skalę.

Ta innowacja architektoniczna, którą NVIDIA nazywa „zdezagregowanym wnioskiem”, oddziela zadania przetwarzania w celu dramatycznego zwiększenia wydajności. Rubin CPX jest częścią nadchodzącej platformy Vera Rubin, która została po raz pierwszy dokuczona na GTC 2025 i jest oczekiwana pod koniec 2026 r.

Move Tworzy nową, wyspecjalizowaną kategorię sprzętu, mającą na celu poprawę rentowności fabryk AI. Rozszerza także dominację NVIDIA nad konkurentami, z których wielu wciąż stara się opracować alternatywy ogólne.

Dezagregowane wnioskowanie: nowa architektura najtrudniejszych obciążeń AI

Strategia dotyczy podstawowego wąskiego gardła we współczesnej sztucznej inteligencji. Jak wyjaśnia NVIDIA, wnioskowanie nie jest jednym zadaniem, ale dwa odrębne obciążenia z różnymi wymaganiami.

Pierwsza faza „kontekst” lub „prefill”, jest intensywna, przetwarzająca rozległe wejścia, takie jak cała baza kodowa lub plik wideo. Drugi, faza „generacji” lub „dekodowania”, jest intensywnie wymaga pamięci, wytwarzając token wyjściowy tokenem. W przypadku aplikacji o masywnych danych wejściowych stwarza to znaczący problem z wydajnością.

Faza przedpełniająca obliczeniowa może powodować długie opóźnienia-czasy minuty-zanim pojawi się pierwszy token odpowiedzi. Według Shar Narasimhana, dyrektora produktu w NVIDIA, pojedynczy procesor graficzny ogólnego przeznaczenia jest zmuszony do obsługi obu zadań, gdy jest on naprawdę zoptymalizowany tylko dla jednego, tworząc kompromis architektoniczny, który utrudnia wydajność.

Rozwiązaniem jest architektoniczna zmiana NVIDIA nazywa się „niezadowoleniem”. Podstawową ideą jest niezależne przetwarzanie tych faz, umożliwiając docelową optymalizację zasobów obliczeniowych i pamięci.

Przypisując fazę kontekstową obliczeniową do wyspecjalizowanego procesora, NVIDIA twierdzi, że podejście Poprawia przepustowość, zmniejsza opatilność, i zwiększa wykorzystanie zasobów . NVIDIA już udowodniła moc strategii w oprogramowaniu, wykorzystując warstwę orkiestracji Dynamo do inteligentnego wykonywania zadań na istniejącym sprzęcie Blackwell.

Ta dezagregacja oparta na oprogramowaniu była kluczowa w Ustanawianie nowych rekordów wydajności w najnowszych wynikach mlperf . Rubin CPX reprezentuje teraz fizyczną manifestację tej sprawdzonej strategii, przechodząc od optymalizacji oprogramowania do specjalnie zbudowanego krzemu.

Koncentrując się na wyspecjalizowanym sprzęcie sygnalizującym dojrzewanie rynku. Wykracza poza po prostu dodając większą surową moc do jednego projektu układu i w kierunku bardziej wyrafinowanej, pełnej optymalizacji całego przepływu pracy AI. T

Jest to centralna zasada wizji „AI Factory” firmy, w której maksymalizacja wydajności i zwrotu z inwestycji jest ostatecznym celem.

Pod maską: Rubin CPX i Vera Rubin NVL144 Platforma

Rubin Cpx GPU, zbudowana w ramach architektury Rubin METICOUSICE, jest specjalna Procesor Procesor METERICUSIONE METERICUSOR. zaprojektowany dla fazy kontekstowej. Dostarcza budzące grozę 30 PETAFLOPS NVFP4 obliczeniowego i jest wyposażony w 128 GB pamięci GDDR7.

Według NVIDIA jest to celowy i opłacalny wybór projektowy; Wybierając GDDR7 w porównaniu z droższą pamięcią o wysokiej przepustowości (HBM) zwykle stosowanej w procesor graficznych, firma może zapewnić odpowiednią wydajność dla zadania związanego z obliczeniami, a jednocześnie poprawia ogólny zwrot z inwestycji systemu.

Poza surowym komputerem. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficien-for-1m-token-context-Workloads/”Target=”_ puste”> Trzy razy szybsze przyjęcie uwagi w porównaniu do systemu GB300 NVL72. Metryka, ponieważ mechanizm uwagi jest obliczeniowym sercem modeli transformatorów. Przyspieszanie jest niezbędne do wydajnego przetwarzania wyjątkowo długich sekwencji danych znalezionych w kontekście w milionach-tokenowych.

GPU zawiera również dedykowaną obsługę sprzętową do dekodowania i kodowania wideo, bezpośrednio odpowiadając na wymagania np. Wysokiej wartości.

dla centrów danych Poszukiwania danych TurnKey rozwiązania TurnKey jest Disagregated Serving Platform umieszczona w jednym stojaku.

Zintegrowany system jest potęgą, łączącą 144 Rubin CPX GPU do przetwarzania kontekstowego, 144 standardowe GPU Rubin dla fazy generacji i 36 procesorów Vera. Ta konfiguracja dostarcza oszałamiających 8 exaflopów całkowitej mocy obliczeniowej NVFP4-7,5-krotnego wzrostu w stosunku do już budzących grozę GB300 NVL72.

Specyfikacje na poziomie systemu są równie imponujące, zawierające 100TB pamięci o dużej prędkości i 1,7 petabajtów na sekundę pasma pamięci. Cały stojak jest powiązany z kwantem-X800 Infiniband lub Spectrum-X Ethernet i zorganizowany przez platformę oprogramowania NVIDIA Dynamo.

Dla klientów, którzy przyjmują standardową platformę Rubin, zanim CPX będzie dostępny, potwierdzi, że Nvidia również potwierdzi, że będzie sprzedawać osobną, podłączoną szafkę węzłów CPX. Oczekuje się, że pełna platforma będzie dostępna na koniec 2026 r.

Rozszerzając prowadzenie: Nvidia pogłębia konkurencyjną fosę

To ogłoszenie w trudnym momencie dla rywali Nvidii. Cała branża technologiczna ściga się w celu opracowania zastrzeżonych akceleratorów sztucznej inteligencji, od Amazon’s Trainium Chips po procesory MTIA Meta. Jednak wielu zmagało się z ogromną trudnością projektowania chipów. Na przykład Microsoft, na przykład, spotkał się z znaczącymi niepowodzeniami z wewnętrznymi projektami krzemowymi, z chipem „Braga” podobno opóźnionym i gorszym. Podczas gdy konkurenci wciąż próbują zbudować pojedynczy procesor graficzny, aby dopasować ogólną wyniki NVIDIA, lider rynku już segmentuje przestrzeń problemową ze specjalistycznymi współtworzonymi.

Nawet bezpośredni rywal AMD, który niedawno rozpoczął bezpośredni atak z instynktem MI350 Series, koncentruje się na monolitycznym projekcie. Dezagregowane podejście NVIDIA stanowi zasadniczo inną filozofię architektoniczną.

Strategia wydaje się odzwierciedlać nastroje wcześniej wyrażone przez dyrektora generalnego NVIDIA, Jensena Huang, który kiedyś zapytał: „Jaki jest sens budowania ASIC, jeśli nie będzie lepszy niż ten, który można kupić?” Wzmacniając swoje przywództwo rynkowe.

Shar Narasimhan, dyrektor produktu w NVIDIA, powiedział, że nowa architektura „radykalnie zwiększy wydajność i wydajność fabryk AI”. Wraz z przybyciem na koniec 2026 r. Nvidia to nie tylko budowanie żetonów; Architektuje przyszłość Centrum danych AI, jednego specjalistycznego komponentu na raz.

NVIDIA zaprezentuje Rubin CPX, wyspecjalizowany procesor graficzny w celu przyspieszenia wnioskowania AI długiego kontaktu

Published by All Things Windows on September 9, 2025

Dezagregowane wnioskowanie: nowa architektura najtrudniejszych obciążeń AI

Pod maską: Rubin CPX i Vera Rubin NVL144 Platforma

Rozszerzając prowadzenie: Nvidia pogłębia konkurencyjną fosę

IT Info

Encyclopedia Britannica i Merriam-Webster Sue zakłopotanie za kradzież praw autorskich i uszkodzenie marki

IT Info

Alibaba rzuca wyzwanie Openai i Google z QWEN3-Max, bilionowym parametrowym modelem AI

IT Info

Meta rozszerza notatki społeczności, będą teraz ostrzegać użytkowników, którzy wchodzą w interakcje z poprawionymi postami

NVIDIA zaprezentuje Rubin CPX, wyspecjalizowany procesor graficzny w celu przyspieszenia wnioskowania AI długiego kontaktu

Published by All Things Windows on September 9, 2025

Dezagregowane wnioskowanie: nowa architektura najtrudniejszych obciążeń AI

Pod maską: Rubin CPX i Vera Rubin NVL144 Platforma

Rozszerzając prowadzenie: Nvidia pogłębia konkurencyjną fosę

Related Posts

IT Info

Encyclopedia Britannica i Merriam-Webster Sue zakłopotanie za kradzież praw autorskich i uszkodzenie marki

IT Info

Alibaba rzuca wyzwanie Openai i Google z QWEN3-Max, bilionowym parametrowym modelem AI

IT Info

Meta rozszerza notatki społeczności, będą teraz ostrzegać użytkowników, którzy wchodzą w interakcje z poprawionymi postami