NVIDIA帶有Nemotron-Nano 9b V2的小型AI模型競賽，並帶有可切換的推理

nvidia進入了競爭性的小型AI模型領域，並發布了Nemotron-Nano-9B-V2，這是一種強大而有效的90億參數開源模型。該模型現在可用，具有新型混合Mamba-Transformer體系結構，旨在在單個GPU上進行高吞吐量。

其出色的功能是一個獨特的可切換推理系統，使開發人員能夠控制模型的“思維”過程，以平衡性能和延遲。該發行版將NVIDIA定位為不斷增長的市場的關鍵參與者，對於較小的商業友好的AI，直接挑戰了最近的創新。

此舉表明，戰略性地推向了新興的小語言模型（SLM）領域。隨著行業努力應對邊境模型的高昂成本，對高效但有能力的替代方案的需求激增。 NVIDIA的參賽作品直接挑戰了阿里巴巴和DeepSeek等競爭對手的最新發行。

這種關注的重點是A10 GPU強調NVIDIA的NVIDIA策略，可以使AI訪問更廣泛的用戶範圍，而無需進行大量大規模的投資。該模型被修剪以特別適合A10芯片。

我們很高興共享一個排行榜上排行榜的nvidia nemotron nano 2，這是一種開創性的9B參數開放的多語言推理模型，該模型在AI中的重新定義並在AI中贏得了領先的位置。 href=“ https://twitter.com/artcoveranlys?ref_src=twsrc%5etfw“ target=“ _ black”>@arthaveranlys 智能索引intelligence Index internex intell Models在… pic.twitter.com/zs5gtdzjsk

– nvidia ai開發人員（@nvidiaaaidev） 2025年8月18日，2025年8月18日該模型為開發人員提供更多的自定義微調選項。

超出其有效的尺寸，擁有一個大型的128K上下文窗口，使其能夠在廣泛的文檔上進行處理和理由。它也是高度通用的，可以處理多種語言，包括英語，德語，西班牙語和日語，並且根據NVIDIA的說法，都擅長於復雜的說明和代碼生成任務。

該模型在關鍵行業基准上的表現是其競爭優勢的清晰度。在其官方技術報告，NVIDIA詳細介紹了強大的結果。在復雜的推理上，它在AIME25上獲得了72.1％，而GPQA的佔64.0％。對於數學解決問題，它在數學上獲得了令人印象深刻的97.8％。

其功能擴展到軟件開發和指導依從性。該模型在LiveCodebench編碼評估上獲得了71.1％的得分，並在標尺128K測試中證明了78.9％的穩健的長篇小寫理解。在下面的指令下，IFEVAL的可靠性達到90.3％。

這些結果很重要，因為它們將Nemotron-Nano-9B-V2放置在其直接競爭對手之前。總體上，基準測試的準確性比阿里巴巴的Qwen3-8b高度高，這是SLM空間中的一個共同比較點。這將Nemotron-nano建立為一個強大的新選擇，適用於在緊湊，高效的軟件包中尋求頂級性能的開發人員。

混合體系結構和可控的推理

基於該模型的效率是其複雜的混合Mamba-Transformer架構。這種設計是對傳統大型語言模型的局限性的直接響應。最受歡迎的LLM是純“變壓器”模型，它們完全依賴於注意力層。雖然有能力，但隨著文本序列的長度的增長，這些層在記憶和計算中變得極為昂貴，這個問題是二次尺度的。

解決這個問題，Nemotron-nano建立在Nemotron-H上，該家族是一個融合了由創新的Mamba Architecter aT Carnegie Mellon和Princet的模型融合了標準變壓器建築。 Mamba結合了選擇性狀態空間模型（SSM），可以通過保持連續狀態來處理非常長的信息序列，從而使它們可以按序列長度線性擴展。

這種混合方法可帶來可觀的性能增長。通過將大多數昂貴的注意機制替換為這些線性時間狀態空間層，與類似尺寸的變壓器模型相比，該模型在長篇小說上可以實現高達六倍的吞吐量，而準確性的準確性顯著下降。這使其非常適合涉及長文檔或廣泛的聊天歷史的任務。

除了其有效的體系結構之外，Nemotron-Nano介紹了一個新型系統，用於管理其問題解決過程，從而使開發人員對其行為進行了細粒度的控制。在提供最終答案之前，該模型默認要生成推理跟踪，但是開發人員可以使用“/think”之類的簡單控件令牌明確要求此分步流程或“`/no_think”以更快的直接響應。

進一步增強此控件是一個運行時的“思考預算”功能。這使開發人員可以在完成響應之前將代幣的數量限制為專用於其內部推理的數量。該機制為平衡準確性與延遲平衡提供了一個至關重要的槓桿，這是響應速度至關重要的生產應用程序中的關鍵問題。

nvidia自己的文檔以準確性的交換曲線說明了這一點，表明瞭如何將績效縮放為績效範圍，以提高推理的代價允許率。 This feature was deliberately engineered during post-training, where about 5% of the data contained truncated reasoning traces, enabling this fine-grained budget control at inference time.

Open for Business: Permissive Licensing and Massive Datasets

In a move clearly aimed at rapid enterprise adoption, Nvidia has released Nemotron-Nano-9B-v2 under its擁有允許的nvidia nvidia Open Model許可證協議。該許可證是明確設計為商業友好的，並指出這些模型可以開箱即用。這使組織可以立即自由下載，修改和將模型部署到生產中，而無需談判單獨的許可或支付與使用，收入或用戶計數有關的費用。

至關重要的是，NVIDIA並不聲稱擁有該模型產生的任何輸出的所有權，與開發人員保持全部權利和責任。這種開放式方法與其他提供商的分層開放許可形成鮮明對比，後者通常一旦公司達到一定規模，通常就需要付費協議。開發人員還可以自由地創建和分發衍生化模型，促進協作生態系統。

該許可證確實包含了一些專注於負責使用的標準條件。企業不得繞過內置的安全護欄，而無需實施可比的替換。模型或其衍生工具的任何重新分佈都必須包括許可文本和適當的歸因。此外，用法必須遵守貿易法規，並符合NVIDIA可信賴的AI準則，並且訴訟條款通過終止對模型侵權的用戶的許可來保護生態系統。

nvidia在nvidia中稱其為“諸如此類公開模型的第一個公司”，該公司也已發布了該數據，“也已發布了該數據，“也已發布了該數據，該數據屬於該數據的數據，該數據屬於多個多元化。巨大的

此數據集分為四個關鍵類別。它包括使用新穎的管道創建的以數學為中心的數據集，以保留複雜方程，從GITHUB使用具有多階段過濾的大規模策劃代碼數據集，以及涵蓋STEM，學術和推理域的合成生成的數據集。它還具有Nemotron-CC Web爬網的新版本，並通過合成問答對增強，將其翻譯成15種語言，以支持可靠的多語言功能。

該模型及其數據集現已可用於下載在擁抱面孔上和通過NVIDIA模型的模型目錄。通過提供強大的模型，還提供了經過培訓的廣闊高質量數據，NVIDIA提供了全面的工具包。該策略旨在通過為開發人員提供高性能和部署效率的工具來增強創新。

NVIDIA帶有Nemotron-Nano 9b V2的小型AI模型競賽，並帶有可切換的推理

Published by All Things Windows on August 19, 2025

混合體系結構和可控的推理

Open for Business: Permissive Licensing and Massive Datasets

IT Info

日產:在虛擬環境中模擬汽車的影響力

IT Info

英國在美國政府強烈的壓力之後下降了蘋果的後門需求

IT Info

如何在Chrome，Firefox，Edge和Opera中隱身

NVIDIA帶有Nemotron-Nano 9b V2的小型AI模型競賽，並帶有可切換的推理

Published by All Things Windows on August 19, 2025

混合體系結構和可控的推理

Open for Business: Permissive Licensing and Massive Datasets

Related Posts

IT Info

日產:在虛擬環境中模擬汽車的影響力

IT Info

英國在美國政府強烈的壓力之後下降了蘋果的後門需求

IT Info

如何在Chrome，Firefox，Edge和Opera中隱身