Google đang tăng cường nỗ lực thống trị phần cứng AI. Vào thứ Năm, công ty đã công bố chip tùy chỉnh mạnh mẽ nhất của mình, Ironwood TPU, hiện đang được cung cấp rộng rãi cho khách hàng trên nền tảng đám mây.
Được thiết kế để đáp ứng nhu cầu ngày càng tăng về suy luận AI, bộ xử lý mới này giải quyết công việc theo thời gian thực đằng sau chatbot. Để hỗ trợ các hệ thống AI này, Google cũng ra mắt bộ xử lý Axion mới, tiết kiệm chi phí cho các tác vụ điện toán hàng ngày.
Động thái chiến lược này nhắm đến các khách hàng quan trọng như Anthropic và làm tăng thêm thách thức của Google đối với công ty dẫn đầu thị trường Nvidia trong cuộc chiến quan trọng về cơ sở hạ tầng AI.
Ironwood: Một cỗ máy silicon tùy chỉnh cho thời đại suy luận
Để cung cấp năng lượng cho thế hệ mô hình AI tiếp theo, Google đang đặt cược vào một chiến lược tích hợp theo chiều dọc.
Trọng tâm của nỗ lực này là Bộ xử lý Tensor thế hệ thứ bảy, Ironwood, được ra mắt lần đầu tiên vào tháng 4.
Hiện đang chuyển sang khả dụng rộng rãi, con chip này được thiết kế có mục đích cho cái mà Google gọi là”thời đại suy luận”, sự chuyển đổi từ đào tạo các mô hình lớn sang triển khai chúng để có những tương tác hữu ích, đáp ứng trên quy mô lớn.
Ironwood mang lại bước nhảy vọt đáng kể về hiệu suất, được thiết kế để đáp ứng các nhu cầu phức tạp trong cả hoạt động đào tạo và phục vụ các mô hình AI lớn nhất hiện nay.
Theo Google, kiến trúc mới cung cấp Cải thiện hiệu suất cao nhất gấp 10 lần so với phiên bản TPU v5p và hiệu suất trên mỗi chip tốt hơn gấp bốn lần so với thế hệ Trillium trước đó.
Ở cấu hình lớn nhất, hệ thống Ironwood có thể đạt được sức mạnh điện toán FP8 đáng kinh ngạc là 42,5 exaFLOPS, một chỉ số cần thiết cho số học có độ chính xác thấp thống trị khối lượng công việc AI hiện đại.
Sức mạnh thô này đi đôi với việc tập trung vào hiệu quả; Ironwood tự hào có hiệu suất trên mỗi watt gấp đôi Trillium, khiến nó trở thành con chip tiết kiệm năng lượng nhất của Google cho đến nay.
Google TPU Peak Flops Per Watt (Nguồn: Google)
Mức hiệu suất này chỉ hữu ích nếu có thể mở rộng quy mô và kiến trúc của Ironwood được thiết kế để hoạt động quy mô lớn và gắn kết.
Một “siêu máy tính” Ironwood duy nhất có thể liên kết tới 9.216 chip riêng lẻ, cho phép chúng hoạt động như một siêu máy tính thống nhất duy nhất. Nền tảng của hệ thống này là kết cấu Kết nối giữa các chip (ICI) tốc độ cao, cung cấp băng thông lên tới 9,6 terabit/giây giữa các chip, tạo ra cấu trúc liên kết 3D Torus dày đặc.
Mạng này cho phép các chip truy cập vào nhóm chia sẻ khổng lồ gồm 1,77 Petabyte Bộ nhớ băng thông cao (HBM), loại bỏ các tắc nghẽn dữ liệu có thể làm tê liệt các công việc AI quy mô lớn.
Để kết nối những công việc này cụm chip, Google sử dụng mạng Chuyển mạch quang học động (OCS). Cấu trúc có thể định cấu hình lại này là chìa khóa cho cả quy mô và khả năng phục hồi.
Như được trình bày chi tiết trong tổng quan kỹ thuật của công ty, OCS có thể bỏ qua mọi phần cứng bị lỗi và thiết lập các mạch mới, hoàn chỉnh chỉ kết nối các thiết bị hoạt động tốt.
Google Kiến trúc Ironwood TPU (Nguồn: Google)
Đối với những khách hàng thực hiện các công việc đào tạo có thể kéo dài hàng tuần, khả năng chịu lỗi động này là một tính năng quan trọng giúp ngăn chặn sự gián đoạn tốn kém và tối đa hóa thời gian hoạt động hiệu quả của toàn bộ hệ thống.
Điều quan trọng là phần cứng tiên tiến này được tích hợp sâu với một nhóm phần mềm được đồng thiết kế, được xây dựng dựa trên triết lý tối ưu hóa cấp hệ thống. Cốt lõi của nó là trình biên dịch Đại số tuyến tính tăng tốc (XLA) của Google, dịch mã cấp cao từ các khung phổ biến như JAX và PyTorch thành các hướng dẫn máy được tối ưu hóa cao.
Trình biên dịch được thiết kế rõ ràng để nhắm mục tiêu vào phần cứng chuyên dụng của TPU, bao gồm các Đơn vị nhân ma trận (MXU) và Đơn vị xử lý vectơ (VPU) dày đặc của nó. Bằng cách tự động kết hợp các hoạt động vào các nhân hiệu quả, XLA cung cấp hiệu suất mạnh mẽ ngay từ đầu.
Để suy luận, công ty đã tối ưu hóa hơn nữa ngăn xếp bằng cách kích hoạt các công cụ phân phát tiên tiến nhất như vLLM trên Ironwood thông qua một chương trình phụ trợ thống nhất mới, làm cho sức mạnh to lớn của nó trở nên dễ tiếp cận hơn đối với các nhà phát triển triển khai mô hình trong sản xuất.
Việc thúc đẩy phần cứng của Google là một phần của chiến lược cơ sở hạ tầng đa hướng, lớn hơn nhiều.
Trong các báo cáo gần đây, chúng tôi đã nêu bật một số kế hoạch đầy tham vọng của Google, từ trung tâm dữ liệu AI mang tính chiến lược địa chính trị trên Đảo Christmas của Úc cho đến Dự án Suncatcher’moonshot’, nhằm mục đích xây dựng các trung tâm dữ liệu chạy bằng TPU trong không gian.
Các sáng kiến nêu bật các nguồn tài nguyên khổng lồ cần thiết để duy trì hoạt động đi đầu trong AI.
[nội dung nhúng]
Mở rộng của Axion: Xác định lại tính toán đa năng
Ngoài các công cụ tăng tốc chuyên dụng cho AI, các ứng dụng hiện đại cần có nền tảng mạnh mẽ và hiệu quả cho khối lượng công việc hàng ngày.
Google đang giải quyết vấn đề này bằng việc mở rộng danh mục CPU Axion dựa trên Arm tùy chỉnh của mình. Công ty đã công bố rằng các máy ảo N4A mới hiện đang ở giai đoạn xem trước, cùng với bản xem trước sắp tới của C4A metal, các phiên bản kim loại trần dựa trên Arm đầu tiên của họ.
Được thiết kế để mang lại hiệu quả về giá và hiệu suất vượt trội, các bộ xử lý này xử lý các tác vụ có mục đích chung hỗ trợ các ứng dụng AI, bao gồm chuẩn bị dữ liệu, vi dịch vụ trong bộ chứa và phân phối web.
Google CPU Axion (Nguồn: Google)
Phản hồi ban đầu của khách hàng cho thấy mức tăng đáng kể. Sergei Koren, Kiến trúc sư trưởng cơ sở hạ tầng tại ZoomInfo, đã ca ngợi các phiên bản mới và cho biết: “Trong bản xem trước của chúng tôi về các phiên bản N4A mới, chúng tôi đã đo lường mức cải thiện 60% về hiệu suất giá cho các khối lượng công việc chính này so với các phiên bản dựa trên x86.”
Tương tự, Vimeo đã báo cáo mức cải thiện hiệu suất 30% cho khối lượng công việc chuyển mã video cốt lõi của mình so với các máy ảo dựa trên x86.
Google đang định vị Axion như một giải pháp thay thế rõ ràng và hiệu quả hơn cho truyền thống bộ xử lý.
Theo Mark Lohmeyer, Phó chủ tịch kiêm Tổng giám đốc cơ sở hạ tầng điện toán và AI tại Google Cloud, “Chúng sẽ có hiệu suất cao hơn 50% so với các bộ xử lý thế hệ x86 tương đương và hiệu suất năng lượng tốt hơn 60% so với các phiên bản dựa trên x86 tương đương.”
Áp dụng chiến lược và Cuộc chạy đua vũ trang AI
Cam kết lớn của Anthropic đóng vai trò là sự xác thực mạnh mẽ cho silicon tùy chỉnh của Google. Phòng thí nghiệm AI, nhà phát triển dòng mô hình Claude, có kế hoạch truy cập tới 1 triệu TPU, báo hiệu sự tin tưởng mạnh mẽ vào khả năng của nền tảng cho cả đào tạo và suy luận.
James Bradbury, Trưởng bộ phận Điện toán của công ty, đã giải thích lợi ích: “Những cải tiến của Ironwood về cả hiệu suất suy luận và khả năng mở rộng đào tạo sẽ giúp chúng tôi mở rộng quy mô một cách hiệu quả trong khi vẫn duy trì tốc độ và độ tin cậy mà khách hàng mong đợi”.
Tuy nhiên, thỏa thuận quan trọng này vẫn tồn tại trong một thực tế phức tạp, nhiều đám mây. Mặc dù mối quan hệ hợp tác này là một thắng lợi đáng kể cho Google, nhưng các báo cáo làm rõ rằng Anthropic duy trì chiến lược cơ sở hạ tầng đa dạng, trong đó Amazon Web Services vẫn là nhà cung cấp đám mây chính.
Nó phản ánh xu hướng toàn ngành trong đó các phòng thí nghiệm AI lớn đang tránh sự phụ thuộc vào một nhà cung cấp duy nhất, một chiến lược từng thấy khi OpenAI bắt đầu sử dụng Google Cloud để bổ sung cho cơ sở hạ tầng Microsoft Azure cốt lõi của mình.
Diễn ra trong bối cảnh một cuộc chạy đua vũ trang AI căng thẳng, các nỗ lực về silicon tùy chỉnh của Google nhắm thẳng vào việc thách thức sự thống trị thị trường của Nvidia. Cần phải đầu tư đáng kinh ngạc để cạnh tranh.
Để đáp ứng nhu cầu ngày càng tăng, Google gần đây đã tăng dự báo chi tiêu vốn cao cấp trong năm lên 93 tỷ USD từ 85 tỷ USD.
Cam kết tài chính to lớn như vậy chứng tỏ rằng việc kiểm soát phần cứng cơ bản hiện được coi là một lợi thế cạnh tranh quan trọng.
Bằng cách tung ra cả TPU Ironwood chuyên dụng cao và CPU Axion đa năng, hiệu quả, Google đang giới thiệu một giải pháp toàn diện, được đồng thiết kế.
Công ty đang đặt cược rằng việc cung cấp cho khách hàng một hệ thống phần cứng được tối ưu hóa và tiết kiệm chi phí, từ chip đến trung tâm dữ liệu, sẽ là chìa khóa để giành chiến thắng trong giai đoạn tiếp theo của cuộc cách mạng AI.