IBM hôm nay đã ra mắt dòng Granite 4.0 Nano, một dòng mô hình AI nguồn mở mới được thiết kế để mang lại hiệu quả cực cao.
Được phát hành vào ngày 29 tháng 10 năm 2025, những mẫu này đủ nhỏ để chạy trên máy tính xách tay và thậm chí trực tiếp trên trình duyệt web, thách thức sự tập trung của ngành vào các hệ thống lớn gắn với máy chủ.
Với kích thước bắt đầu chỉ từ 350 triệu thông số, dòng Nano đặt mục tiêu giúp các nhà phát triển và doanh nghiệp có thể truy cập AI mạnh mẽ mà không cần đám mây đắt tiền.
Việc phát hành, sau sự ra mắt của các mẫu Granite 4.0 lớn hơn vào đầu tháng 10, báo hiệu một chiến lược thúc đẩy AI nhỏ hơn, dễ tiếp cận hơn cho các ứng dụng điện toán biên và trên thiết bị.
Mô hình nhỏ, khả năng truy cập lớn: Nano chạy trên máy tính xách tay của bạn
Thách thức câu thần chú’càng lớn càng tốt’của ngành, động thái mới nhất của IBM ưu tiên tính hiệu quả và khả năng truy cập trên quy mô tuyệt đối. Dòng Granite 4.0 Nano bao gồm bốn mẫu, từ 350 triệu thông số nhỏ đến nhiều hơn phiên bản có khả năng chứa 1,5 tỷ tham số.
Thiết kế của chúng khiến chúng trở nên lý tưởng cho các nhà phát triển xây dựng ứng dụng trên phần cứng tiêu dùng hoặc ở biên, nơi việc phụ thuộc vào đám mây là không thực tế. Mục tiêu là trao quyền cho một lớp ứng dụng AI mới coi trọng quyền riêng tư, độ trễ thấp và tính độc lập khỏi các trung tâm dữ liệu tốn kém.
Các biến thể nhỏ nhất có thể hoạt động thoải mái trên máy tính xách tay hiện đại có RAM 8-16GB. Trong một minh chứng đáng chú ý về sự nhẹ nhàng của chúng, Joshua Lochner, kỹ sư máy học tại Hugging Face, đã xác nhận rằng “những cái nhỏ nhất thậm chí có thể chạy cục bộ trên trình duyệt web của riêng bạn”, anh ấy xác nhận.
Mức độ tiếp cận này làm giảm rào cản gia nhập đối với các nhà phát triển và các doanh nghiệp nhỏ, cho phép chuyển đổi sang AI ưu tiên địa phương.
Dòng sản phẩm này được chia thành hai phong cách kiến trúc để tối đa hóa tính linh hoạt. Hai mẫu, Granite-4.0-H-1B và H-350M, sử dụng kiến trúc không gian trạng thái lai (SSM) và Transformer.
Hai mẫu khác, Granite-4.0-1B và 350M, là các biến thể Transformer thuần túy, cung cấp khả năng tương thích rộng hơn với các công cụ hiện có như llama.cpp.
Một trưởng nhóm sản phẩm của IBM đã làm rõ cách đặt tên, lưu ý rằng mô hình 1B không lai thực sự gần với các tham số 2B hơn nhưng được đặt tên để phù hợp với người anh em lai của nó.
Trong khi biến thể lai rhe là mô hình 1B thực sự, thì biến thể không lai gần với 2B hơn. IBM đã chọn giữ cách đặt tên phù hợp với biến thể kết hợp để dễ dàng nhìn thấy kết nối.
Vượt lên trên trọng lượng của chúng: Hiệu suất điểm chuẩn của Nano
Bên dưới, các mẫu Nano kế thừa kiến trúc cải tiến tương tự làm cho dòng Granite 4.0 ban đầu trở nên đáng chú ý.
Bằng cách kết hợp các lớp Mamba-2 hiệu quả cao với một số ít khối Transformer truyền thống, các mô hình này đạt được mức tăng hiệu suất đáng kể trong một mức ngân sách nhất định.
Phương pháp kết hợp này trực tiếp giải quyết”nút thắt cổ chai bậc hai”của các mẫu Transformer thuần túy, trong đó nhu cầu xử lý tăng cao khi độ dài đầu vào tăng lên.
Điểm nổi bật về mặt định lượng đáng kể nhất là mức tăng hiệu quả đáng kể: các mô hình lai mới có thể cắt giảm hơn yêu cầu bộ nhớ GPU 70% trong quá trình suy luận, đặc biệt là đối với khối lượng công việc có ngữ cảnh dài hoặc nhiều người dùng đồng thời.
Lựa chọn kiến trúc này là một phần của cuộc chạy đua rộng hơn trong ngành nhằm đạt được hiệu quả AI, trong đó các công ty như Google khám phá các phương pháp mới để giảm chi phí tính toán và các nhà nghiên cứu đang phát triển các kỹ thuật nén mới.
Mặc dù có dấu chân tối thiểu, các mô hình Nano vẫn mang lại kết quả ấn tượng dựa trên các điểm chuẩn chính của ngành, khiến chúng cạnh tranh trực tiếp với các mô hình ngôn ngữ nhỏ (SLM) đã có uy tín như Qwen3 của Alibaba và Gemma của Google.
Theo dữ liệu được IBM chia sẻ, mô hình Granite-4.0-H-1B đạt điểm 78,5 trên IFEval về khả năng tuân theo hướng dẫn, vượt trội so với mô hình Qwen3-1.7B lớn hơn.
Trên Bảng xếp hạng gọi hàm Berkeley (BFCLv3), một bài kiểm tra quan trọng đối với quy trình công việc tác nhân, biến thể Granite-4.0-1B dẫn đầu lớp quy mô với số điểm 54,8.
Bảng xếp hạng gọi chức năng Nano Berkeley của IBM Granite 4.0 v3 (BFCLv3) (Nguồn: IBM)
Những kết quả này cho thấy rằng thiết kế chiến lược và dữ liệu đào tạo chất lượng cao có thể cho phép các mô hình nhỏ hơn cạnh tranh hiệu quả với các mô hình lớn hơn nhiều trong các nhiệm vụ chuyên biệt, phù hợp với doanh nghiệp.
Bảng xếp hạng gọi chức năng IBM Granite 4.0 Nano Berkeley v3 (BFCLv3) (Nguồn: IBM)
Nền tảng mở và đáng tin cậy dành cho AI doanh nghiệp
Đối với các nhà phát triển và doanh nghiệp cảnh giác với việc khóa nhà cung cấp, giấy phép Apache 2.0 dễ dãi mang lại sự tự do đáng kể để sử dụng, sửa đổi và phân phối các mô hình, ngay cả cho mục đích thương mại.
Cách tiếp cận mở này là một phần cốt lõi trong chiến lược của IBM nhằm xây dựng một hệ sinh thái đáng tin cậy xung quanh các mô hình Granite của mình, định vị chúng như một giải pháp thay thế đáng tin cậy của phương Tây cho các mô hình nguồn mở mạnh mẽ của các đối thủ cạnh tranh.
Vượt ra ngoài giấy phép mở, IBM đang củng cố niềm tin bằng các tiêu chuẩn quản trị nghiêm ngặt.
Dòng Granite là dòng mô hình nguồn mở đầu tiên đạt được Chứng nhận ISO/IEC 42001:2023, một tiêu chuẩn quốc tế xác minh rằng hệ thống quản lý AI của IBM đáp ứng các yêu cầu nghiêm ngặt về trách nhiệm giải trình và tính minh bạch.
Để đảm bảo hơn nữa tính toàn vẹn, mọi điểm kiểm tra mô hình đều được ký bằng mật mã, cho phép để xác minh tính xác thực và nguồn gốc của nó.
Sự tham gia trực tiếp của IBM với cộng đồng nhà phát triển, bao gồm phiên”Hỏi tôi bất cứ điều gì”trên Reddit, báo hiệu cam kết thúc đẩy việc áp dụng và thu thập phản hồi.
Người dùng trên diễn đàn đã thể hiện sự nhiệt tình, với một phiên nhận xét:”Điều này thật tuyệt vời nếu đúng với mô hình 1B… đây có thể là một công việc thực sự.”
Với kế hoạch phát hành các mô hình lớn hơn và các biến thể”Tư duy”tập trung vào lý luận vào cuối năm 2025, dòng Nano dường như chỉ là bước đầu tiên trong một chiến lược rộng lớn hơn nhằm biến AI hiệu quả, sẵn sàng sản xuất thành hiện thực cho nhiều đối tượng hơn.