NVIDIA telah memasuki arena model AI kecil yang kompetitif dengan pembebasan Nemotron-Nano-9B-V2, model sumber terbuka 9 bilion-parameter yang kuat dan cekap. Tersedia sekarang, model ini mempunyai seni bina hibrid Mamba-transformer novel yang direka untuk throughput yang tinggi pada GPU tunggal. Pelepasan kedudukan NVIDIA sebagai pemain utama dalam pasaran yang semakin meningkat untuk AI yang lebih kecil, komersial, secara langsung mencabar inovasi baru-baru ini.
Langkah ini menandakan usaha strategik ke dalam ruang model bahasa kecil (SLM) yang berkembang. Memandangkan industri bergulat dengan kos tinggi model sempadan, permintaan untuk alternatif yang cekap namun mampu melonjak. Kemasukan Nvidia secara langsung mencabar siaran baru-baru ini daripada pesaing seperti Alibaba dan Deepseek. adalah sistem halus yang direka untuk akses dan kuasa. Nemotron-nano-9b-v2 adalah model 9 bilion-parameter yang sengaja dimampatkan dari yang lebih besar pic.twitter.com/zs5gtdzjsk
-pemaju nvidia ai (@nvidiaaidev)
Di luar saiznya yang cekap, model ini mempunyai tetingkap konteks 128k yang besar, membolehkannya memproses dan membuat alasan ke atas dokumen yang luas. Ia juga sangat serba boleh, mengendalikan pelbagai bahasa termasuk bahasa Inggeris, Jerman, Sepanyol, dan Jepun, dan mahir dalam kedua-dua arahan kompleks berikut dan tugas penjanaan kod, menurut Nvidia. Dalamnya Keupayaannya melanjutkan ke dalam pembangunan perisian dan pematuhan arahan. Model ini menjamin skor 71.1% pada penilaian pengekodan LiveCodeBench dan menunjukkan pemahaman konteks panjang yang mantap dengan 78.9% pada ujian 128K penguasa. Pada arahan berikut, ia mencapai 90.3% pada IFEVAL, mempamerkan kebolehpercayaannya. Keputusan ini penting kerana mereka meletakkan Nemotron-Nano-9B-V2 menjelang pesaing langsungnya. Di seberang papan, tanda aras menunjukkan ketepatan yang lebih tinggi daripada Qwen3-8B Alibaba, satu titik perbandingan yang sama di ruang SLM. Ini menetapkan nemotron-nano sebagai pilihan baru yang hebat untuk pemaju yang mencari prestasi teratas dalam pakej yang kompak dan cekap. href=”https://research.nvidia.com/labs/adlr/nvidia-nemotron-nano-2/”target=”_ blank”> Canggih Mamba-Transformer Architecture
Mamba menggabungkan model ruang negara terpilih (SSMS), yang boleh memproses urutan maklumat yang sangat panjang dengan mengekalkan keadaan yang berterusan, yang membolehkan mereka skala secara linear dengan panjang urutan.
Pendekatan hibrid ini menghasilkan keuntungan prestasi yang besar. Dengan menggantikan kebanyakan mekanisme perhatian yang mahal dengan lapisan ruang negara linear ini, model ini dapat mencapai sehingga enam kali lebih tinggi pada konteks yang panjang berbanding dengan model pengubah bersaiz yang sama, tanpa penurunan ketepatan yang signifikan. Ini menjadikannya sesuai untuk tugas-tugas yang melibatkan dokumen panjang atau sejarah sembang yang luas.
Di luar seni bina yang cekap, Nemotron-Nano memperkenalkan sistem novel untuk menguruskan proses penyelesaian masalahnya, memberikan pemaju kawalan halus terhadap kelakuannya. Model ini mungkir untuk menjana jejak penalaran sebelum memberikan jawapan akhir, tetapi pemaju boleh menggunakan token kawalan mudah seperti `/Think` untuk secara eksplisit meminta proses langkah demi langkah ini atau`/no_think` untuk memintasnya untuk lebih cepat, tindak balas langsung. Ini membolehkan pemaju untuk menutup bilangan token model mendedikasikan kepada penalaran dalamannya sebelum menyelesaikan respons. Mekanisme ini memberikan tuas penting untuk mengimbangi ketepatan dengan latensi, kebimbangan utama dalam aplikasi pengeluaran seperti sokongan pelanggan atau ejen autonomi di mana kelajuan tindak balas adalah kritikal. Ciri ini sengaja direkayasa semasa latihan pasca, di mana kira-kira 5% daripada data yang terkandung jejak penalaran yang dipenggal, membolehkan kawalan belanjawan yang halus ini pada masa kesimpulan.