Nvidia mengungkap Rubin Cpx, GPU khusus untuk mempercepat inferensi AI konteks panjang

Nvidia telah meluncurkan Rubin CPX, kelas baru GPU yang dibangun untuk mempercepat”fase konteks”komputasi-intensif dari inferensi AI. Diumumkan hari ini, chip ini dirancang untuk menangani beban kerja besar-besaran dengan lebih dari satu juta token, seperti pembuatan video dan analisis kode skala besar.

Inovasi arsitektur ini, yang disebut NVIDIA”inferensi terpisah,”memisahkan tugas pemrosesan untuk secara dramatis meningkatkan efisiensi. The Rubin CPX is part of the forthcoming Vera Rubin platform, which was first teased at GTC 2025 and is expected in late 2026.

The Move Membuat kategori perangkat keras khusus baru yang bertujuan meningkatkan profitabilitas pabrik AI. Ini juga memperluas dominasi Nvidia atas pesaing, banyak di antaranya masih berjuang untuk mengembangkan alternatif umum.

inferensi terpilah: arsitektur baru untuk beban kerja terberat AI

Strategi ini membahas hambatan mendasar di AI modern. Seperti yang dijelaskan NVIDIA, inferensi bukanlah satu tugas tetapi dua beban kerja yang berbeda dengan persyaratan yang berbeda.

Yang pertama, fase”konteks”atau”prefill”, adalah komputasi intensif, memproses input luas seperti seluruh basis kode atau file video. Yang kedua, fase”generasi”atau”decode”, bersifat intensif memori, menghasilkan token output dengan token. Untuk aplikasi dengan input besar-besaran, ini menciptakan masalah kinerja yang signifikan.

Fase prefill komputasi-berat dapat menyebabkan penundaan yang lama-kadang-kadang menit-sebelum token pertama dari respons muncul. Menurut Shar Narasimhan, seorang direktur produk di NVIDIA, satu GPU serba guna secara umum dipaksa untuk menangani kedua tugas ketika itu hanya benar-benar dioptimalkan untuk satu, menciptakan kompromi arsitektur yang menghambat efisiensi.

Solusinya adalah pergeseran arsitektural yang disebut NVIDIA”inferensi yang tidak bertahap.”Gagasan intinya adalah memproses fase-fase ini secara independen, memungkinkan untuk optimalisasi yang ditargetkan dari sumber daya komputasi dan memori.

Dengan menetapkan fase konteks komputasi ke prosesor khusus, NVIDIA mengklaim pendekatan mengatur catatan kinerja baru dalam hasil inferensi MLPERFERFEF terbaru . Rubin CPX sekarang mewakili manifestasi fisik dari strategi yang terbukti ini, beralih dari optimasi perangkat lunak ke silikon yang dibangun khusus.

Fokus pada sinyal perangkat keras khusus ini merupakan pematangan pasar. Bergerak melampaui hanya menambahkan lebih banyak kekuatan mentah ke desain chip tunggal dan menuju optimalisasi full-stack yang lebih canggih dari seluruh alur kerja AI. T

Ini adalah prinsip utama dari visi”pabrik AI”perusahaan, di mana memaksimalkan kinerja dan pengembalian investasi adalah tujuan akhir.

di bawah kap: rubin Cpx dan vera rubin nvl144 Platform

Rubin CPX GP, PROSES ARCHENEDSIONAL

The Rubin CPX GP GP, GP direkayasa untuk fase konteks. Ini memberikan 30 petaflops yang tangguh dari komputasi NVFP4 dan dilengkapi dengan memori GDDR7 128GB.

Menurut NVIDIA, ini adalah pilihan desain yang disengaja dan hemat biaya; Dengan memilih GDDR7 daripada memori bandwidth tinggi yang lebih mahal (HBM) yang biasanya digunakan dalam GPU yang berfokus pada generasi, perusahaan dapat memberikan kinerja yang memadai untuk tugas prefill yang terikat komputasi sementara secara signifikan meningkatkan pengembalian investasi secara keseluruhan. href=”https://develever.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-foriciency-for-1m-token-context-workloads/”target=”_ blanks”Tiga kali lebih cepat. metrik, karena mekanisme perhatian adalah jantung komputasi model transformator. Akselerasi sangat penting untuk memproses urutan data yang sangat panjang secara efisien yang ditemukan dalam konteks jutaan yang dicetak.

GPU juga mencakup dukungan perangkat keras khusus untuk decoding dan pengkodean video, secara langsung menjawab tuntutan solusi yang muncul, non-nvidia. Platform penyajian berkinerja tinggi berkinerja tinggi bertempat di satu rak.

Sistem terintegrasi adalah pembangkit tenaga listrik, menggabungkan 144 Rubin CPX GPU untuk pemrosesan konteks, 144 GPU Rubin standar untuk fase pembangkit, dan 36 Vera CPU. Konfigurasi ini memberikan 8 exaflops yang mengejutkan dari total daya komputasi NVFP4-peningkatan 7,5 kali lipat dari GB300 NVL72 yang sudah tangguh.

Spesifikasi tingkat sistem sama-sama mengesankan, menampilkan 100TB memori kecepatan tinggi dan 1,7 petabytes per detik bandwidth. Seluruh rak saling berhubungan dengan Ethernet Quantum-X800 Infiniband atau Spectrum-X dan diatur oleh Platform Perangkat Lunak NVIDIA Dynamo.

Untuk pelanggan yang mengadopsi platform rubin standar sebelum CPX tersedia, NVIDIA juga telah dikonfirmasi bahwa ia akan menjual rak CPX yang dapat ditingkatkan. Platform penuh diharapkan tersedia pada akhir 2026.

Memperpanjang timah: NVIDIA memperdalam parit kompetitif

Pengumuman ini mendarat pada saat yang sulit untuk penyair NVIDIA. Seluruh industri teknologi berlomba untuk mengembangkan akselerator AI yang berpemilik, dari chip falium Amazon hingga prosesor MTIA Meta. Namun banyak yang telah berjuang dengan kesulitan besar desain chip.

Microsoft, misalnya, telah menghadapi kemunduran yang signifikan dengan proyek silikon in-house-nya, dengan chip’Braga’-nya yang dilaporkan tertunda dan berkinerja buruk. Sementara para pesaing masih berusaha membangun GPU tunggal untuk mencocokkan kinerja umum NVIDIA, pemimpin pasar sudah segmentasi ruang masalah dengan co-prosesor khusus.

Bahkan AMD saingan langsung, yang baru-baru ini meluncurkan serangan langsung dengan seri MI350 naluri, difokuskan pada desain monolitik. Pendekatan terpilah Nvidia mewakili filosofi arsitektur yang berbeda secara fundamental.

Strategi ini tampaknya menggemakan sentimen yang sebelumnya diungkapkan oleh CEO NVIDIA Jensen Huang, yang pernah bertanya,”Apa gunanya, tidak ada yang lebih baik dari yang tidak akan lebih baik daripada yang bisa Anda beli?”NVIDIA memperkuat kepemimpinan pasarnya.

Shar Narasimhan, seorang direktur produk di NVIDIA, mengatakan arsitektur baru”akan secara dramatis meningkatkan produktivitas dan kinerja pabrik AI.”Dengan kedatangannya dijadwalkan untuk akhir 2026, NVIDIA tidak hanya membangun chip; Ini arsitektur masa depan Pusat Data AI, satu komponen khusus sekaligus.

Nvidia mengungkap Rubin Cpx, GPU khusus untuk mempercepat inferensi AI konteks panjang

Published by All Things Windows on September 9, 2025

inferensi terpilah: arsitektur baru untuk beban kerja terberat AI

di bawah kap: rubin Cpx dan vera rubin nvl144 Platform

Memperpanjang timah: NVIDIA memperdalam parit kompetitif

IT Info

Microsoft Taps Anthropic’s Claude AI untuk Microsoft 365, menandakan perubahan besar dalam kemitraan openai

IT Info

Mengapa bermain teka-teki online lebih baik daripada offline: 7 alasan yang tidak terduga

IT Info

Microsoft mengamanatkan pengembalian kantor tiga hari, mengutip tuntutan era AI

Nvidia mengungkap Rubin Cpx, GPU khusus untuk mempercepat inferensi AI konteks panjang

Published by All Things Windows on September 9, 2025

inferensi terpilah: arsitektur baru untuk beban kerja terberat AI

di bawah kap: rubin Cpx dan vera rubin nvl144 Platform

Memperpanjang timah: NVIDIA memperdalam parit kompetitif

Related Posts

IT Info

Microsoft Taps Anthropic’s Claude AI untuk Microsoft 365, menandakan perubahan besar dalam kemitraan openai

IT Info

Mengapa bermain teka-teki online lebih baik daripada offline: 7 alasan yang tidak terduga

IT Info

Microsoft mengamanatkan pengembalian kantor tiga hari, mengutip tuntutan era AI