Sau khi ra mắt silicon M5 vào tháng 10, Apple hiện đã phát hành bản thiết kế kiến trúc cho “Bộ tăng tốc thần kinh” của chip, một thành phần GPU chuyên dụng được thiết kế để thách thức sự thống trị của Nvidia trong khối lượng công việc AI cục bộ.

Chi tiết trong một báo cáo kỹ thuật mới hôm nay, kiến trúc này tận dụng khung máy học MLX đã cập nhật để tăng tốc độ suy luận “thời gian đến mã thông báo đầu tiên” (TTFT) lên gấp 4 lần so với M4.

Tiết lộ này biến những gì ban đầu là điểm nhấn tiếp thị thành khả năng phần cứng được ghi lại, xác nhận rằng băng thông bộ nhớ 153GB/giây và các đơn vị ma trận chuyên dụng của M5 được thiết kế đặc biệt để phá vỡ các tắc nghẽn bộ nhớ gây khó khăn cho việc thực thi mô hình ngôn ngữ lớn (LLM) trên các thiết bị tiêu dùng.

Bên trong M5: The Kiến trúc bộ tăng tốc thần kinh

Thay vì chỉ dựa vào tốc độ xung nhịp thô, các kỹ sư của Apple về cơ bản đã thiết kế lại các lõi GPU trong M5 để bao gồm các “Bộ tăng tốc thần kinh” chuyên dụng. Các thiết bị này được thiết kế nhằm mục đích xử lý các hoạt động nhân ma trận dày đặc làm nền tảng cho AI hiện đại.

Trong buổi ra mắt chip M5, các giám đốc điều hành đã coi silicon là một bước tiến nhảy vọt, nhưng các chi tiết kỹ thuật cụ thể vẫn không rõ ràng cho đến khi Báo cáo kỹ thuật chính thức của Apple được phát hành.

Các tài liệu kỹ thuật cập nhật làm rõ rằng Bộ tăng tốc đặc biệt nhắm mục tiêu đến giai đoạn suy luận “điền trước”—bước đầu tiên đòi hỏi tính toán chuyên sâu trong đó mô hình xử lý lời nhắc của người dùng.

Khi ra mắt, Johny Srouji, Phó Giám đốc Công nghệ Phần cứng Cấp cao của Apple, đã coi khả năng này là một sự thay đổi cấu trúc, lưu ý rằng “M5 mở ra bước nhảy vọt lớn tiếp theo về hiệu suất AI cho Apple silicon. Với việc giới thiệu Bộ tăng tốc thần kinh trong GPU, M5 mang lại sự thúc đẩy lớn cho khối lượng công việc AI.”

Điều quan trọng là mức tăng hiệu suất không đồng đều ở tất cả các nhiệm vụ. Mặc dù giai đoạn điền trước có sự cải thiện đáng kể gấp 4 lần nhờ các đơn vị điện toán mới, nhưng giai đoạn tạo mã thông báo tiếp theo vẫn bị hạn chế bởi tốc độ di chuyển dữ liệu qua hệ thống. Như đã giải thích trong báo cáo kỹ thuật chính thức:

“Trong suy luận LLM, việc tạo mã thông báo đầu tiên bị ràng buộc về tính toán và tận dụng tối đa Bộ tăng tốc thần kinh. Việc tạo mã thông báo tiếp theo bị giới hạn bởi băng thông bộ nhớ chứ không phải bởi khả năng tính toán.
 
Trên các kiến trúc mà chúng tôi đã thử nghiệm trong bài đăng này, M5 mang lại hiệu suất tăng 19-27% so với M4, nhờ băng thông bộ nhớ lớn hơn (120GB/giây cho M4, 153GB/giây đối với M5, cao hơn 28%).
 
Về dung lượng bộ nhớ, MacBook Pro 24GB có thể dễ dàng giữ mức 8B ở độ chính xác BF16 hoặc lượng tử hóa 30B MoE 4 bit, duy trì khối lượng công việc suy luận dưới 18GB cho cả hai kiến trúc này.”

Sự chênh lệch như vậy làm nổi bật tính chất kép của lộ trình nâng cấp của M5. Băng thông bộ nhớ, hiện đạt tốc độ 153GB/giây, tăng 28% so với 120GB/giây của M4, tương quan trực tiếp với tốc độ tạo ra tăng 19-27% được quan sát thấy.

Đối với các nhà phát triển, điều này có nghĩa là M5 đặc biệt thành thạo trong việc xử lý các lời nhắc ngữ cảnh dài, phức tạp trong đó thời gian xử lý ban đầu là nút thắt cổ chai chính. Với dung lượng bộ nhớ thống nhất 24GB, hệ thống cho phép thực thi các mô hình quan trọng, chẳng hạn như mô hình tham số 8B ở độ chính xác BF16 hoặc mô hình Hỗn hợp chuyên gia (MoE) 30B ở dạng lượng tử hóa 4 bit, hoàn toàn trên thiết bị.

Theo nhóm nghiên cứu của Apple, “Bộ tăng tốc thần kinh cung cấp các hoạt động nhân ma trận chuyên dụng, rất quan trọng đối với nhiều khối lượng công việc học máy và cho phép trải nghiệm suy luận mô hình thậm chí còn nhanh hơn trên Apple silicon.”

Mở khóa Silicon: MLX Framework Evolution

Ngoài silicon, câu chuyện phần mềm đã phát triển để phù hợp với khả năng của phần cứng. Để sử dụng Bộ tăng tốc thần kinh mới, các nhà phát triển phải cập nhật lên phiên bản 0.30.0 của khung MLX, thư viện mảng mã nguồn mở của Apple được thiết kế cho kiến trúc bộ nhớ hợp nhất.

Tài liệu chỉ ra rằng việc hỗ trợ đầy đủ cho các tính năng này yêu cầu “macOS 26.2″, số phiên bản có thể đề cập đến một bản dựng nội bộ hoặc một bản dựng lỗi đánh máy cho phiên bản beta macOS 16.2 (Tahoe) sắp tới. Điều kiện tiên quyết như vậy nhấn mạnh sự kết hợp chặt chẽ giữa nhân hệ điều hành và các trình đổ bóng hiệu suất kim loại điều khiển các bộ tăng tốc.

Với ngăn xếp được cập nhật, Apple tuyên bố rằng “Bộ tăng tốc thần kinh GPU tỏa sáng với MLX trên khối lượng công việc ML liên quan đến phép nhân ma trận lớn, mang lại tốc độ tăng gấp 4 lần so với đường cơ sở M4 cho suy luận mô hình ngôn ngữ theo thời gian đến mã thông báo đầu tiên”.

Các nhà phát triển cũng có thể tận dụng MLX Swift để xây dựng các ứng dụng chạy tự nhiên trên toàn bộ hệ sinh thái Apple, từ macOS đến iOS. Khả năng tương thích đa nền tảng đóng vai trò là điểm khác biệt chính, cho phép triển khai mã viết cho MacBook Pro trên iPad Pro với sửa đổi tối thiểu. Tài liệu của Apple nêu chi tiết về sự tích hợp này:

“MLX hoạt động với tất cả các hệ thống silicon của Apple và với bản phát hành macOS beta mới nhất, giờ đây nó tận dụng Bộ tăng tốc thần kinh trong chip M5 mới, được giới thiệu trong MacBook Pro 14 inch mới. Bộ tăng tốc thần kinh cung cấp các hoạt động nhân ma trận chuyên dụng, rất quan trọng đối với nhiều khối lượng công việc học máy và cho phép trải nghiệm suy luận mô hình nhanh hơn nữa trên Apple silicon.”

Về mặt chiến lược, phần mềm đẩy phù hợp với các sáng kiến rộng hơn, bao gồm cả sáng kiến phụ trợ CUDA mà Apple đã âm thầm hỗ trợ. Bằng cách kích hoạt”cầu nối một chiều”để mã MLX chạy trên phần cứng Nvidia, Apple đang định vị khung của mình như một môi trường phát triển khả thi có thể mở rộng quy mô sang các cụm trung tâm dữ liệu nếu cần.

Tuy nhiên, trọng tâm chính vẫn là thực thi cục bộ. Việc thiếu hỗ trợ GPU bên ngoài trên Apple Silicon có nghĩa là các nhà phát triển hoàn toàn phụ thuộc vào kiến ​​trúc bộ nhớ hợp nhất bên trong, khiến hiệu quả của khung MLX trở nên quan trọng đối với hiệu suất.

Sự gián đoạn trong’Cụm Mac’: Thách thức đối với Trung tâm Dữ liệu

Trong khi các chip M5 riêng lẻ mang lại sức mạnh cục bộ đáng kể, thì một bước phát triển mới trong cộng đồng nguồn mở đang thách thức mô hình trung tâm dữ liệu truyền thống. Các công cụ nguồn mở mới như phần mềm phân cụm ExoLabs hiện cho phép người dùng kết nối nhiều Mac Studios lại với nhau thông qua Thunderbolt 5, tạo ra một cụm suy luận phân tán có khả năng chạy các mô hình quy mô lớn.

Khả năng phân cụm này có thể mở rộng để hỗ trợ các mô hình lớn như mô hình Tư duy Kimi K2 mới, kiến ​​trúc MoE tham số 1 nghìn tỷ tham số. Bằng cách gộp bộ nhớ hợp nhất của nhiều chip M5 Ultra hoặc Max, các cụm này có thể vượt qua giới hạn VRAM của các GPU tiêu dùng đơn lẻ.

Các nhà nghiên cứu của Apple nhấn mạnh tính hiệu quả của phương pháp này, lưu ý rằng”M5 đẩy thời gian tạo mã thông báo đầu tiên xuống dưới 10 giây đối với kiến trúc 14B dày đặc và dưới 3 giây đối với MoE 30B, mang lại hiệu suất mạnh mẽ cho các kiến trúc này trên MacBook Pro.”

Các đối số về hiệu suất năng lượng đặc biệt thuyết phục cho các phòng thí nghiệm nghiên cứu và các doanh nghiệp nhỏ hơn. Một cụm gồm bốn Mac Studios tiêu thụ ít hơn 500 watt, một phần năng lượng cần thiết cho một giá máy chủ Nvidia H100 tương đương.

Mặc dù độ trễ trên Thunderbolt 5 không thể sánh bằng tốc độ của các kết nối NVLink độc quyền của Nvidia, nhưng thiết lập này cung cấp giải pháp”AI có chủ quyền”cho các tổ chức yêu cầu quyền riêng tư dữ liệu và không thể dựa vào suy luận dựa trên đám mây. Việc dân chủ hóa suy luận lớp siêu máy tính như vậy thể hiện sự thay đổi đáng kể về cách triển khai các mô hình lớn bên ngoài các trung tâm dữ liệu siêu quy mô.

Categories: IT Info