NVIDIA telah melancarkan Rubin CPX, kelas baru yang dibina tujuan GPU untuk mempercepatkan”fasa konteks”yang berintensifkan kesimpulan AI. Diumumkan hari ini, cip itu direka untuk mengendalikan beban kerja yang besar dengan lebih daripada satu juta token, seperti generasi video dan analisis kod berskala besar.

Inovasi seni bina ini, yang disebut NVIDIA”kesimpulan yang dipisahkan,”memisahkan tugas pemprosesan untuk meningkatkan kecekapan secara dramatik. Rubin CPX adalah sebahagian daripada platform Vera Rubin yang akan datang, yang pertama kali digoda di GTC 2025 dan dijangka pada akhir 2026.

href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-infera Ia juga melanjutkan penguasaan Nvidia ke atas pesaing, kebanyakannya masih berjuang untuk membangunkan alternatif-alternatif tujuan umum.

Kesimpulan yang dipisahkan: Senibina baru untuk beban kerja yang paling sukar AI

Strategi ini menangani hambatan asas dalam AI moden. Seperti yang dijelaskan oleh Nvidia, kesimpulan bukanlah satu tugas tetapi dua beban kerja yang berbeza dengan keperluan yang berbeza. Yang kedua, fasa”Generasi”atau”Decode”, adalah intensif memori, menghasilkan token output oleh token. Untuk aplikasi dengan input besar-besaran, ini mewujudkan masalah prestasi yang signifikan.

Fasa prefill-heavy boleh menyebabkan kelewatan yang panjang-kadang-kadang minit-sebelum token pertama respons muncul. Menurut Shar Narasimhan, pengarah produk di NVIDIA, satu gpu tujuan umum terpaksa mengendalikan kedua-dua tugas apabila ia hanya dioptimumkan untuk satu, mewujudkan kompromi seni bina yang menghalang kecekapan. Idea teras adalah untuk memproses fasa-fasa ini secara bebas, yang membolehkan pengoptimuman sasaran sumber pengiraan dan ingatan.

Dengan memberikan fasa konteks yang terikat kepada pemproses khusus, Nvidia mendakwa pendekatan

href=”https://developer.nvidia.com/blog/nvidia-blackwell-ultra-sets-new-inference-records-in-mlperf-debut/”sasaran=”_ blank”Rubin CPX kini mewakili manifestasi fizikal strategi terbukti ini, bergerak dari pengoptimuman perisian ke silikon yang dibina tujuan.

Fokus ini pada perkakasan khusus menandakan pematangan pasaran. Ia bergerak melampaui hanya menambah lebih banyak kuasa mentah ke reka bentuk cip tunggal dan ke arah pengoptimuman yang lebih canggih, penuh dengan aliran kerja AI. T

Ia adalah prinsip pusat visi”AI Factory”syarikat, di mana memaksimumkan prestasi dan pulangan pelaburan adalah matlamat utama. direka bentuk untuk fasa konteks. Ia menyampaikan 30 petaflops nvfp4 yang hebat dan dilengkapi dengan 128GB memori GDDR7.

Menurut NVIDIA, ini adalah pilihan reka bentuk yang sengaja dan kos efektif; Dengan memilih GDDR7 ke atas memori jalur lebar yang lebih mahal (HBM) yang biasanya digunakan dalam GPU yang berfokus pada generasi, syarikat itu dapat memberikan prestasi yang mencukupi untuk tugas prefill yang terikat dengan signifikan sementara meningkatkan pulangan keseluruhan sistem.

href=”https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-dan-for-1m-token-context-works/”sasaran=”_ blank”Metrik, sebagai mekanisme perhatian adalah jantung pengiraan model pengubah. Mempercepatkan adalah penting untuk memproses urutan data yang sangat panjang yang terdapat dalam konteks berjuta-juta. Platform hidangan yang dipisahkan ditempatkan dalam rak tunggal.

Sistem bersepadu adalah kuasa besar, menggabungkan 144 Rubin CPX GPU untuk pemprosesan konteks, 144 GPU Rubin standard untuk fasa penjanaan, dan 36 CPU Vera. Konfigurasi ini menyampaikan 8 exaflops yang mengejutkan dari jumlah kuasa pengiraan NVFP4-peningkatan 7.5 kali ganda ke atas GB300 NVL72 yang sudah singkat. Seluruh rak dihubungkan dengan sama ada kuantum-x800 infiniband atau spektrum-x ethernet dan dirancang oleh platform perisian nvidia dynamo. Platform penuh dijangka tersedia pada akhir tahun 2026. Keseluruhan industri teknologi berlumba untuk membangunkan pemecut AI proprietari, dari kerepek trainium Amazon ke pemproses MTIA Meta. Namun ramai yang telah bergelut dengan kesukaran reka bentuk cip yang besar. Walaupun pesaing masih berusaha membina GPU tunggal untuk memadankan prestasi umum Nvidia, pemimpin pasaran sudah membahagikan ruang masalah dengan pemproses bersama. Pendekatan Nvidia yang dipisahkan mewakili falsafah seni bina yang berbeza-beza. menguatkan kepimpinan pasarannya.

Shar Narasimhan, pengarah produk di NVIDIA, berkata seni bina baru”secara dramatik akan meningkatkan produktiviti dan prestasi kilang AI.”Dengan ketibaannya yang dijadualkan pada akhir tahun 2026, Nvidia bukan hanya membina cip; Ia adalah arkitek masa depan pusat data AI, satu komponen khusus pada satu masa.