NVIDIA đã tham gia vào đấu trường mô hình AI nhỏ cạnh tranh với việc phát hành Nemotron-Nano-9B-V2, một mô hình nguồn mở 9 tỷ mạnh mẽ và hiệu quả. Có sẵn, mô hình có kiến trúc Mamba-Transformer lai mới được thiết kế cho thông lượng cao trên một GPU. Vị trí phát hành NVIDIA là một người chơi chính trong thị trường đang phát triển cho AI nhỏ hơn, thân thiện với thương mại, trực tiếp thách thức những đổi mới gần đây. Khi ngành công nghiệp vật lộn với chi phí cao của các mô hình Frontier, nhu cầu về các lựa chọn thay thế hiệu quả nhưng có khả năng đã tăng lên. Mục nhập Nvidia trực tiếp thách thức các bản phát hành gần đây từ các đối thủ cạnh tranh như Alibaba và Deepseek.
@nhân tạo Target=”_ Blank”> pic.twitter.com/zs5gtdzjsk
-Nhà phát triển AI AI (@nvidiaaidev) Các nhà phát triển có thêm các tùy chọn để tinh chỉnh tùy chỉnh. Nó cũng rất linh hoạt, xử lý nhiều ngôn ngữ bao gồm tiếng Anh, tiếng Đức, tiếng Tây Ban Nha và tiếng Nhật, và rất giỏi trong cả hướng dẫn phức tạp và các nhiệm vụ tạo mã, theo Nvidia. Trong Báo cáo kỹ thuật chính thức Với lý luận phức tạp, nó đạt được 72,1% trên AIME25 và 64,0% trên GPQA. Đối với việc giải quyết vấn đề toán học, nó đạt điểm 97,8% ấn tượng trên Math500. Mô hình đảm bảo điểm 71,1% trên đánh giá mã hóa LiveCodebench và thể hiện sự hiểu biết trong bối cảnh dài với 78,9% trong bài kiểm tra 128K của người cai trị. Theo hướng dẫn sau, nó đạt 90,3% trên ifeval, thể hiện độ tin cậy của nó. Trên bảng, các điểm chuẩn cho thấy độ chính xác cao hơn so với Alibaba, Qwen3-8b, một điểm so sánh chung trong không gian SLM. Điều này thiết lập Nemotron-Nano là một tùy chọn mới đáng gờm cho các nhà phát triển tìm kiếm hiệu suất hàng đầu trong một gói nhỏ gọn, hiệu quả. href=”https://research.nvidia.com/labs/adlr/nvidia-nemotron-nano-2/”Target=”_ Blank”> Kiến trúc Mamba-Transformer lai tinh xảo . Thiết kế này là một phản ứng trực tiếp đối với các hạn chế của các mô hình ngôn ngữ lớn truyền thống. Hầu hết các LLM phổ biến là các mô hình Transformer Pure Transformer”, hoàn toàn dựa vào các lớp chú ý. Mặc dù mạnh mẽ, các lớp này trở nên cực kỳ tốn kém trong bộ nhớ và tính toán khi độ dài của chuỗi văn bản phát triển, một vấn đề có tỷ lệ theo bậc hai. MAMBA kết hợp các mô hình không gian trạng thái chọn lọc (SSM), có thể xử lý các chuỗi thông tin rất dài bằng cách duy trì trạng thái liên tục, cho phép chúng mở rộng tuyến tính với độ dài trình tự.
Cách tiếp cận lai này mang lại mức tăng hiệu suất đáng kể. Bằng cách thay thế hầu hết các cơ chế chú ý tốn kém bằng các lớp không gian trạng thái thời gian tuyến tính này, mô hình có thể đạt được thông lượng cao hơn tới sáu lần trên các bối cảnh dài so với các mô hình biến áp có kích thước tương tự, mà không giảm độ chính xác đáng kể. Điều này làm cho nó trở nên lý tưởng cho các nhiệm vụ liên quan đến các tài liệu dài hoặc lịch sử trò chuyện rộng rãi. Mô hình mặc định tạo ra một dấu vết lý luận trước khi cung cấp câu trả lời cuối cùng, nhưng các nhà phát triển có thể sử dụng các mã thông báo điều khiển đơn giản như `/nghĩ’yêu cầu rõ ràng quy trình từng bước này hoặc`/NO_Think` để bỏ qua nó để đáp ứng trực tiếp nhanh hơn.
Điều này cho phép các nhà phát triển giới hạn số lượng mã thông báo mà mô hình dành cho lý luận nội bộ của nó trước khi hoàn thành phản hồi. Cơ chế này cung cấp một đòn bẩy quan trọng để cân bằng độ chính xác với độ trễ, mối quan tâm chính trong các ứng dụng sản xuất như hỗ trợ khách hàng hoặc các tác nhân tự trị trong đó tốc độ phản hồi là rất quan trọng. Tính năng này được thiết kế một cách có chủ ý trong quá trình đào tạo sau, trong đó khoảng 5% dữ liệu chứa dấu vết lý luận bị cắt ngắn, cho phép kiểm soát ngân sách chi tiết này tại thời điểm thực hiện. Sở hữu NVIDIA PFORSIA Giấy phép được thiết kế rõ ràng để thân thiện về mặt thương mại, nói rằng các mô hình có thể sử dụng thương mại ra khỏi hộp. Điều này cho phép các tổ chức tải xuống tự do, sửa đổi và triển khai mô hình vào sản xuất ngay lập tức mà không cần đàm phán giấy phép riêng hoặc trả phí gắn liền với việc sử dụng, doanh thu hoặc số lượng người dùng. Cách tiếp cận mở này trái ngược hoàn toàn với các giấy phép mở theo cấp bậc từ các nhà cung cấp khác, thường yêu cầu một thỏa thuận được trả lương khi một công ty đạt đến một quy mô nhất định. Các nhà phát triển cũng được tự do tạo và phân phối các mô hình phái sinh, thúc đẩy một hệ sinh thái hợp tác. Các doanh nghiệp không được bỏ qua các bảo vệ an toàn tích hợp mà không thực hiện các thay thế tương đương. Bất kỳ phân phối lại của mô hình hoặc các dẫn xuất của nó phải bao gồm văn bản giấy phép và quy kết thích hợp. Hơn nữa, việc sử dụng phải tuân thủ các quy định thương mại và phù hợp với hướng dẫn AI đáng tin cậy của NVIDIA, và một điều khoản kiện tụng bảo vệ hệ sinh thái bằng cách chấm dứt giấy phép cho người dùng kiện khác về hành vi vi phạm. The khổng lồ
Bộ dữ liệu này được tổ chức thành bốn loại chính. Nó bao gồm một bộ dữ liệu tập trung vào toán học được tạo ra với một đường ống mới để bảo tồn các phương trình phức tạp, bộ dữ liệu mã quy mô lớn từ GitHub với bộ lọc nhiều giai đoạn và bộ dữ liệu được tạo tổng hợp bao gồm các miền, học thuật và lý luận. Nó cũng có phiên bản mới của Web Crawl Nemotron-CC, được tăng cường với các cặp câu hỏi và trả lời tổng hợp được dịch sang 15 ngôn ngữ để hỗ trợ các khả năng đa ngôn ngữ mạnh mẽ. href=”https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615 Bằng cách cung cấp không chỉ là một mô hình mạnh mẽ mà còn là dữ liệu rộng lớn, chất lượng cao mà nó được đào tạo, NVIDIA đang cung cấp một bộ công cụ toàn diện. Chiến lược này nhằm mục đích trao quyền cho các nhà phát triển và tăng tốc đổi mới bằng cách cung cấp cho họ các công cụ cho cả hiệu suất và hiệu quả triển khai cao.