nvidiaは、AI推論の計算集約型の「コンテキストフェーズ」を加速するために専用の新しいクラスであるRubin CPXを発表しました。本日発表されたチップは、ビデオ生成や大規模なコード分析など、100万件以上のトークンを備えた大規模なワークロードを処理するように設計されています。ルービンCPXは、GTC 2025で最初にいじめられ、2026年後半に予想されているVera Rubinプラットフォームの一部です。ターゲット=”_ blank”> move AI工場の収益性を向上させることを目的とした新しい専門のハードウェアカテゴリを作成します。また、競合他社に対するNvidiaの支配を拡張しています。その多くは、総都合の代替案の開発にまだ苦労しています。
分解された推論:AIの最も厳しいワークロードの新しいアーキテクチャ
戦略は、現代のAIの基本的なボトルネックに対処します。 NVIDIAが説明するように、推論は単一のタスクではなく、異なる要件を持つ2つの異なるワークロードです。
最初の「コンテキスト」または「プレフィル」フェーズは、コードベース全体やビデオファイルのような計算集中的な広大な入力です。 2番目の「生成」または「デコード」フェーズはメモリ集約的であり、トークンによる出力トークンを生成します。大量の入力を備えたアプリケーションの場合、これにより重大なパフォーマンスの問題が発生します。
コンピューティングが多いプレフィルフェーズは、応答の最初のトークンが表示される前に、数分間の長い遅延を引き起こす可能性があります。 Nvidiaの製品ディレクターであるShar Narasimhanによると、単一の汎用GPUは、1つだけで最適化されている場合に両方のタスクを処理することを余儀なくされ、効率を妨げるアーキテクチャの妥協を作成します。コアのアイデアは、これらのフェーズを個別に処理し、計算およびメモリリソースのターゲットを絞った最適化を可能にすることです。
コンピューティングバウンドコンテキストフェーズを特殊なプロセッサに割り当てることにより、Nvidiaはアプローチを主張しますスループットを改善し、レイテンシーを減らし、全体的なリソースを強化し、
Nvidiaは、Dynamoオーケストレーションレイヤーを使用して、既存のBlackwellハードウェアにタスクをインテリジェントにルーティングするために、ソフトウェアの戦略の力をすでに証明しています。 href=”https://developer.nvidia.com/blog/nvidia-blackwell-ultra-sets-new-inference-records-in-mlperf-debut/”ターゲット=”_ blank”>最新のMLPERF推論の結果で新しいパフォーマンスレコードの設定。ルービンCPXは、ソフトウェアの最適化から専用のシリコンに移行するこの実績のある戦略の物理的顕現を表しています。単に1つのチップ設計にさらに生の電力を加え、AIワークフロー全体のより洗練されたフルスタックの最適化に向けて移動します。 T
これは、パフォーマンスと投資収益率を最大化することが最終的な目標である会社の「AI工場」ビジョンの中心的な教義です。コンテキストフェーズのために細心の注意を払って設計されています。 NVFP4コンピューティートの手ごわい30ペタフロップを提供し、128GBのGDDR7メモリを装備しています。一般的に発電中のGPUで通常使用される、より高価な高帯域幅メモリ(HBM)よりもGDDR7を選択することにより、同社はシステム全体の投資収益率を大幅に改善しながら、コンピューティングバウンドプリルタスクに適切なパフォーマンスを提供できます。 href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inferance-andercence-and-efficiency-for-1M-token-context-workloads/”ターゲット=”_ blank”> 3回高速な注意補償メトリックは、注意メカニズムは変圧器モデルの計算心臓であるためです。それを加速することは、百万トークンのコンテキストで見つかった非常に長いデータシーケンスを効率的に処理するために不可欠です。
GPUには、ビデオデコードとエンコードのための専用のハードウェアサポートも含まれています。単一のラックに収容された分解されたサービングプラットフォーム。
統合システムは、コンテキスト処理用の144ルービンCPX GPU、生成フェーズの144標準ルービンGPU、および36 Vera CPUを組み合わせた強力なものです。この構成は、総NVFP4コンピューティングパワーの驚異的な8エクスフロップを提供します。すでに手ごわいGB300 NVL72で7.5倍増加します。ラック全体は、QUANTUM-X800インフィニバンドまたはSpectrum-X Ethernetのいずれかと相互接続されており、Nvidia Dynamoソフトウェアプラットフォームによってオーケストレーションされています。
標準的なルービンプラットフォームを利用できる前に標準的なルービンプラットフォームを採用する顧客向けに、NVIDIAはCPXノードの既存のインストールの別のラックを販売することも確認しています。フルプラットフォームは2026年の終わりに利用可能になると予想されます。テクノロジー業界全体は、AmazonのトレーニングチップからMetaのMTIAプロセッサまで、独自のAIアクセラレーターを開発するために競争しています。たとえば、多くの人がチップデザインの計り知れない困難に苦しんでいます。たとえば、マイクロソフトは、「ブラガ」チップが遅れてパフォーマンスが低下していると伝えられている社内シリコンプロジェクトで大きな後退に直面しています。競合他社はまだNVIDIAの一般的なパフォーマンスに合わせて単一のGPUを構築しようとしていますが、マーケットリーダーはすでに問題スペースを専門の共同プロセッサとセグメント化しています。 Nvidiaの分解されたアプローチは、根本的に異なる建築哲学を表しています。 Nvidiaは市場のリーダーシップを強化しています。
NvidiaのプロダクトディレクターであるShar Narasimhanは、新しいアーキテクチャは「AI工場の生産性とパフォーマンスを劇的に向上させる」と述べました。 2026年後半に到着が予定されているため、Nvidiaはチップを構築するだけではありません。 AIデータセンターの未来をアーキテクテクティブしています。