Microsoft Azure đã triển khai cụm NVIDIA GB300 NVL72 quy mô siêu máy tính đầu tiên trên thế giới, một hệ thống lớn được xây dựng riêng cho đối tác của họ, OpenAI.

Cụm sản xuất tích hợp hơn 4.600 GPU Blackwell Ultra mới nhất của NVIDIA, cung cấp sức mạnh to lớn cần thiết để đào tạo và chạy thế hệ mô hình AI tiếp theo.

The triển khai, đặt tại trung tâm dữ liệu AI của Microsoft, đánh dấu một cột mốc quan trọng trong liên minh chiến lược sâu sắc giữa ba gã khổng lồ công nghệ. Nó nhằm mục đích tăng tốc đáng kể sự phát triển AI, cho phép OpenAI xây dựng các mô hình mạnh mẽ và phức tạp hơn bao giờ hết, củng cố vị trí dẫn đầu chung của các công ty trong cuộc đua cơ sở hạ tầng AI cạnh tranh khốc liệt.

Một gã khổng lồ siêu máy tính mới dành cho OpenAI

Thông báo này là đỉnh cao của nỗ lực hợp tác kỹ thuật kéo dài nhiều năm nhằm xây dựng cơ sở hạ tầng có khả năng xử lý khối lượng công việc AI biên giới.

Microsoft có kế hoạch biến cụm ban đầu này thành cụm đầu tiên trong số nhiều cụm, với mục tiêu đầy tham vọng là mở rộng quy mô tới hàng trăm nghìn GPU Blackwell Ultra trên các trung tâm dữ liệu toàn cầu của mình, một điều rõ ràng tín hiệu về chiến lược AI dài hạn của mình.

Đọc thêm: Tại sao Microsoft có thể là người chiến thắng cuối cùng khi bong bóng AI bùng nổ

Khoản đầu tư lớn này sẽ cho phép đào tạo mô hình trong vài tuần thay vì hàng tháng và hỗ trợ phát triển các mô hình với hàng trăm nghìn tỷ tham số.

Theo Nidhi Chappell, Phó chủ tịch tập đoàn tại Microsoft, “sự cộng tác giúp đảm bảo những khách hàng như OpenAI có thể triển khai cơ sở hạ tầng thế hệ tiếp theo với quy mô và tốc độ chưa từng có.”

Microsoft và Nvidia cho biết họ đặt ra tiêu chuẩn mới cho ngành siêu máy tính AI ở quy mô sản xuất.

Under the Hood: Bên trong cụm GB300 NVL72

Trái tim của siêu máy tính là hệ thống GB300 NVL72 quy mô lớn, làm mát bằng chất lỏng của NVIDIA, một kiến trúc được ra mắt tại GTC vào tháng 3 năm 2025. Mỗi đơn vị tích hợp 72 GPU Blackwell Ultra và 36 CPU Grace vào một hệ thống gắn kết duy nhất.

Thiết kế dày đặc này cung cấp 1,44 exaflop điện toán FP4 và cung cấp nhóm bộ nhớ nhanh 37 TB thống nhất cho mỗi hệ thống. Hệ thống làm mát bằng chất lỏng tích hợp rất cần thiết để quản lý lượng nhiệt tỏa ra lớn của cấu hình mật độ cao như vậy, cho phép duy trì hiệu suất cao nhất.

Để kết nối hơn 4.600 GPU vào một siêu máy tính gắn kết, cụm sử dụng kiến ​​trúc mạng hai tầng phức tạp. Trong mỗi giá, kết cấu NVLink thế hệ thứ năm của NVIDIA cung cấp băng thông tổng cộng 130 TB/s. Điều này biến 72 GPU thành một bộ tăng tốc đơn, lớn có bộ nhớ dùng chung một cách hiệu quả pool.

Để liên lạc trên toàn bộ cụm, Microsoft đã triển khai Nền tảng Quantum-X800 InfiniBand của NVIDIA. Loại vải béo, không chặn này đảm bảo giao tiếp liền mạch, tốc độ cao với băng thông 800 Gb/s trên mỗi GPU, một thành phần quan trọng giúp giảm thiểu chi phí khi đào tạo các mô hình cực lớn trên hàng nghìn bộ xử lý.

Cuộc chạy đua vũ trang AI: Một cuộc chơi sức mạnh chiến lược

Mặc dù đây là đợt triển khai lớn nhất cho đến nay, nhưng nó diễn ra sau một động thái trước đó của nhà cung cấp đám mây chuyên dụng CoreWeave. Vào tháng 7 năm 2025, CoreWeave đã trở thành công ty đầu tiên cung cấp nền tảng GB300 trên thị trường, đảm bảo lợi thế quan trọng của người đi đầu trên thị trường.

 Tuy nhiên, thông báo của Microsoft nhấn mạnh một cách cẩn thận tính chất”sản xuất quy mô”của cụm của nó, báo hiệu một cấp độ công nghiệp hóa và năng lực mới giúp phân biệt nó với các hoạt động triển khai nhỏ hơn trước đó.

Động thái này xác nhận sự xoay trục chiến lược của Microsoft, báo cáo lần đầu tiên vào năm vào cuối năm 2024, để ưu tiên GB300 hơn phiên bản tiền nhiệm bị trì hoãn là GB200. Việc triển khai thành công là sự thể hiện sự thống trị trong cuộc chạy đua vũ trang về cơ sở hạ tầng AI, củng cố vị thế của công ty trước các đối thủ trên nền tảng đám mây.

Ian Buck, Phó Chủ tịch phụ trách Điện toán siêu quy mô và Hiệu năng cao của NVIDIA, đã nhấn mạnh tầm quan trọng của hệ thống đối với toàn bộ lĩnh vực này, ông cho biết: “hệ thống đồng thiết kế này cung cấp cụm sản xuất GB300 quy mô lớn đầu tiên trên thế giới, cung cấp công cụ siêu máy tính cần thiết để OpenAI phục vụ các mô hình có nhiều nghìn tỷ tham số.”

Nó cho thấy vai trò của nền tảng như là công cụ dẫn đầu cho hoạt động nghiên cứu và phát triển AI tiên phong.

Ngoài Blackwell: Lộ trình tăng tốc của NVIDIA

Kiến trúc Blackwell đại diện cho công nghệ tăng tốc AI tiên tiến nhất hiện nay. Giám đốc điều hành NVIDIA Jensen Huang đã nhấn mạnh tác động sâu sắc của nó đối với khối lượng công việc suy luận AI, đồng thời lưu ý rằng “Blackwell Ultra NVL72 tăng tốc đáng kể khối lượng công việc suy luận AI, cho phép phản hồi gần như tức thời ngay cả trên các mô hình lớn nhất”.

Tuy nhiên, ngay cả khi nền tảng hàng đầu của nó được triển khai trên quy mô lớn, công ty vẫn đang hướng tới bước nhảy vọt về kiến ​​trúc lớn tiếp theo.

Lộ trình tích cực của NVIDIA hiện hướng tới nền tảng Vera Rubin, dự kiến sẽ ra mắt vào cuối năm 2026. Kiến trúc tương lai này sẽ mang đến nhiều chuyên môn hóa hơn nữa, chẳng hạn như bộ đồng xử lý Rubin CPX được công bố gần đây, một con chip được xây dựng có mục đích nhằm tăng tốc”giai đoạn ngữ cảnh”chuyên sâu về tính toán của suy luận AI.

Chiến lược”suy luận phân tách”này báo hiệu một thị trường đang tiến xa hơn GPU nguyên khối, đa năng. Bằng cách tạo ra phần cứng chuyên dụng cho các phần cụ thể của quy trình làm việc AI, NVIDIA đang xây dựng một con hào cạnh tranh sâu sắc hơn. Tốc độ đổi mới không ngừng này làm nổi bật sự trưởng thành của thị trường phần cứng AI.

Hiện tại, liên minh Microsoft-NVIDIA-OpenAI đã đặt ra tiêu chuẩn mới cho cơ sở hạ tầng sẽ xác định kỷ nguyên tiếp theo của trí tuệ nhân tạo.

Categories: IT Info