A
nvidia bemutatta a Rubin CPX-t, a GPU új osztályát, amelyet az AI következtetésének felgyorsítása érdekében felgyorsítottak. A mai napon bejelentett chipet úgy tervezték, hogy több mint egymillió tokennel, például videogenerációs és nagyszabású kód-elemzéssel rendelkező hatalmas munkaterheléseket kezeljen. A Rubin CPX része a közelgő Vera Rubin platformnak, amelyet először a GTC 2025-ben ugrattak, és 2026 végén várható. Target=”_ üres”> mozgás létrehoz egy új, speciális hardverkategóriát, amelynek célja az AI gyárak jövedelmezőségének javítása. Ezenkívül kiterjeszti az Nvidia dominanciáját a versenytársak felett, akik közül sokan továbbra is küzdenek az általános célú alternatívák kidolgozása érdekében.
Deleggált következtetés: Az AI legkeményebb munkaterhelésének új architektúrája
A stratégia a modern AI alapvető szűk keresztmetszete foglalkozik. Amint az NVIDIA elmagyarázza, a következtetés nem egyetlen feladat, hanem két különálló munkaterhelés, eltérő követelményekkel. A második, a „generáció” vagy a „dekódol” fázis memória-igényes, és a token kimeneti tokent előállítja. A hatalmas bemenetekkel rendelkező alkalmazások esetében ez jelentős teljesítményproblémát okoz. Shar Narasimhan, az NVIDIA termékigazgatója szerint az egyetlen, általános célú GPU-t arra kényszerítik, hogy mindkét feladatot kezelje, amikor csak egyre optimalizálódik, és olyan építészeti kompromisszumot hoz létre, amely akadályozza a hatékonyságot. Az alapvető ötlet az, hogy ezeket a fázisokat önállóan dolgozzák fel, lehetővé téve a számítási és memóriaforrások célzott optimalizálását. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-pleformance-and-efficialt-for-1m-token-cortext-workloads/”Target=”_ üres”> javítja az átviteli sebességet, csökkenti a latenciát, és javítja az általános erőforrás-felhasználást. Az NVIDIA már bebizonyította a stratégia hatalmát a szoftverben, a dinamo-zenekarréteg használatával intelligens módon a feladatokat a meglévő Blackwell hardverén. href=”https://developer.nvidia.com/blog/nvidia-blackwell-ultra-sets-new-inferfs-in-mlperf-debut/”Target=”_ üres”> Új teljesítményrekordok beállítása a legújabb MLPERF következtetési eredményekbe . A Rubin CPX most képviseli ennek a bevált stratégiának a fizikai megnyilvánulását, a szoftver optimalizálásról a célra épített szilíciumra. Túllépve túlmutat, hogy egyszerűen több nyers energiát ad hozzá az egyetlen chip-kialakításhoz és a teljes AI munkafolyamat kifinomultabb, teljes verem optimalizálásához. T
Ez a vállalat „AI gyár” jövőképének központi tétele, ahol a teljesítmény és a beruházás megtérülésének maximalizálása a végső cél. aprólékosan megtervezték a kontextusfázisra. Ez egy félelmetes 30 Petaflop NVFP4-es számítással rendelkezik, és 128 GB GDDR7 memóriával van felszerelve. Azáltal, hogy a GDDR7-et választja a drágább, nagy sávszélesség-memória (HBM) felett, amelyet általában generáció-központú GPU-kban használnak, a vállalat megfelelő teljesítményt nyújthat a számításhoz kötött előfeltöltési feladathoz, miközben jelentősen javítja a rendszer általános befektetési megtérülését. href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-pleformance-and-efficialy-for-1m-token-corkloads/”Target=”_ üres”> Háromszor gyorsabb figyelem gyorsításhoz viszonyítva: ez a CRUCCAL GB300 NVL72 System. Metrikus, mivel a figyelemmechanizmus a transzformátor modellek számítási szíve. A gyorsítás elengedhetetlen a milliomos kontextusban található rendkívül hosszú adatszekvenciák hatékony feldolgozásához. Az egyetlen állványban elhelyezett, bontott kiszolgáló platform. Ez a konfiguráció megdöbbentő 8 exaflop-ot biztosít az összes NVFP4 számítási teljesítményből-7,5-szeres növekedés a már félelmetes GB300 NVL72-hez képest. A teljes állvány összekapcsolódik akár a Q A teljes platform várhatóan 2026 végén érhető el. Az egész technológiai ipar a szabadalmaztatott AI gyorsítók fejlesztése érdekében versenyez, az Amazon Trainium chips-től a Metia MTIA processzorokig. Mégis sokan küzdenek a chiptervezés óriási nehézségeivel. Míg a versenytársak továbbra is megpróbálnak egyetlen GPU-t felépíteni, hogy megfeleljenek az NVIDIA általános teljesítményének, addig a piacvezető már szegmentálja a problémát a speciális társprocesszorokkal. Az NVIDIA bontott megközelítése alapvetően eltérő építészeti filozófiát képvisel. A piaci vezetés megerősítése. A 2026 végére való érkezésével az Nvidia nem csak a chips építése; Ez az AI adatközpont jövőjének, egy speciális összetevőnek a jövőjének építését jelenti.