Google กำลังเพิ่มราคาเสนอสำหรับการครอบงำด้านฮาร์ดแวร์ AI ในวันพฤหัสบดี ได้ประกาศเปิดตัวชิปแบบกำหนดเองที่ทรงพลังที่สุดอย่าง Ironwood TPU ซึ่งขณะนี้กำลังเข้าสู่ความพร้อมใช้งานทั่วไปสำหรับลูกค้าระบบคลาวด์
โปรเซสเซอร์ใหม่นี้สร้างขึ้นเพื่อรองรับความต้องการการอนุมาน AI ที่เพิ่มสูงขึ้น โดยจัดการกับการทำงานแบบเรียลไทม์ เบื้องหลังแชทบอท เพื่อสนับสนุนระบบ AI เหล่านี้ Google ยังได้เปิดตัวโปรเซสเซอร์ Axion ใหม่ที่คุ้มค่าสำหรับงานประมวลผลในแต่ละวัน
การเคลื่อนไหวเชิงกลยุทธ์นี้มุ่งเป้าไปที่ลูกค้าหลักๆ เช่น Anthropic และเพิ่มความคมชัดให้กับความท้าทายของ Google ในการเป็นผู้นำตลาด Nvidia ในการต่อสู้ครั้งสำคัญสำหรับโครงสร้างพื้นฐาน AI
Ironwood: ขุมพลังซิลิคอนแบบกำหนดเองสำหรับยุคแห่งการอนุมาน
เพื่อขับเคลื่อนโมเดล AI รุ่นต่อไป Google วางเดิมพันกับกลยุทธ์บูรณาการในแนวตั้ง
หัวใจสำคัญของความพยายามนี้คือ Ironwood หน่วยประมวลผลเทนเซอร์รุ่นที่ 7 ซึ่งเปิดตัวครั้งแรกในเดือนเมษายน
ขณะนี้ ชิปนี้เริ่มเข้าสู่ความพร้อมใช้งานทั่วไปแล้ว สร้างขึ้นโดยมีจุดประสงค์เพื่อสิ่งที่ Google เรียกว่า”ยุคของการอนุมาน”ซึ่งถือเป็นการเปลี่ยนแปลง ตั้งแต่การฝึกอบรมโมเดลขนาดใหญ่ไปจนถึงการใช้งานเพื่อการโต้ตอบที่มีประโยชน์และตอบสนองในวงกว้าง
Ironwood มอบประสิทธิภาพแบบก้าวกระโดดที่สำคัญ ซึ่งออกแบบมาเพื่อจัดการกับความต้องการที่ซับซ้อนของทั้งการฝึกอบรมและการให้บริการโมเดล AI ที่ใหญ่ที่สุดในปัจจุบัน
ตามข้อมูลของ Google สถาปัตยกรรมใหม่นำเสนอ การปรับปรุงประสิทธิภาพสูงสุด 10 เท่า เมื่อเทียบกับ TPU v5p รุ่นก่อน และประสิทธิภาพต่อชิปที่ดีขึ้นกว่าสี่เท่า เมื่อเทียบกับ Trillium รุ่นก่อนหน้า
ในการกำหนดค่าที่ใหญ่ที่สุด ระบบ Ironwood สามารถบรรลุถึง 42.5 ที่น่าทึ่ง exaFLOPS ของพลังการประมวลผล FP8 ซึ่งเป็นตัวชี้วัดที่จำเป็นสำหรับเลขคณิตที่มีความแม่นยำต่ำซึ่งครอบงำปริมาณงาน AI สมัยใหม่
พลังดิบนี้ควบคู่ไปกับการมุ่งเน้นไปที่ประสิทธิภาพ Ironwood มีประสิทธิภาพมากกว่า Trillium ถึง 2 เท่า ทำให้เป็นชิปที่ประหยัดพลังงานที่สุดของ Google จนถึงปัจจุบัน
Google TPU Peak Flops ต่อวัตต์ (แหล่งที่มา: Google)
ประสิทธิภาพระดับนี้จะมีประโยชน์ก็ต่อเมื่อสามารถปรับขนาดได้ และสถาปัตยกรรมของ Ironwood ได้รับการออกแบบมาเพื่อการทำงานขนาดใหญ่และต่อเนื่องกัน
“superpod”ของ Ironwood ตัวเดียวสามารถเชื่อมโยงชิปแต่ละตัวได้มากถึง 9,216 ตัว ทำให้ทำงานเป็นชิปตัวเดียวได้ ซูเปอร์คอมพิวเตอร์แบบครบวงจร รากฐานของระบบนี้คือแฟบริค Inter-Chip Interconnect (ICI) ความเร็วสูงที่ให้แบนด์วิดท์สูงสุด 9.6 เทราบิตต่อวินาทีระหว่างชิป ทำให้เกิดโทโพโลยี 3D Torus ที่หนาแน่น
เครือข่ายนี้อนุญาตให้ชิปเข้าถึงแหล่งรวมหน่วยความจำแบนด์วิธสูง (HBM) ที่ใช้ร่วมกันขนาดมหึมา 1.77 เพตาไบต์ ซึ่งช่วยขจัดปัญหาคอขวดของข้อมูลที่สามารถทำให้งาน AI ขนาดใหญ่พิการได้
ในการเชื่อมต่อคลัสเตอร์ชิปเหล่านี้ Google จะใช้เครือข่าย Optical Circuit Switch (OCS) แบบไดนามิก Fabric ที่กำหนดค่าใหม่ได้นี้เป็นกุญแจสำคัญสำหรับทั้งขนาดและความยืดหยุ่น
ตามรายละเอียดในภาพรวมทางเทคนิคของบริษัท OCS สามารถเลี่ยงผ่านฮาร์ดแวร์ที่ล้มเหลวใดๆ ได้อย่างมองเห็น และสร้างวงจรใหม่ที่สมบูรณ์ซึ่งเชื่อมต่อเฉพาะหน่วยที่มีสุขภาพดีเท่านั้น
Google สถาปัตยกรรม TPU ของ Ironwood (ที่มา: Google)
สำหรับลูกค้าที่รันงานการฝึกอบรมซึ่งอาจใช้เวลานานหลายสัปดาห์ ความทนทานต่อข้อผิดพลาดแบบไดนามิกนี้เป็นคุณลักษณะสำคัญที่ป้องกันการหยุดชะงักที่มีค่าใช้จ่ายสูงและช่วยเพิ่มเวลาทำงานที่มีประสิทธิผลของทั้งระบบให้สูงสุด
โดยสำคัญ ฮาร์ดแวร์ขั้นสูงนี้ได้รับการผสานรวมอย่างลึกซึ้งกับชุดซอฟต์แวร์ที่ออกแบบร่วมกันซึ่งสร้างขึ้นบนปรัชญาของการเพิ่มประสิทธิภาพระดับระบบ แกนหลักคือคอมไพเลอร์ Accelerated Linear Algebra (XLA) ของ Google ซึ่งแปลโค้ดระดับสูงจากเฟรมเวิร์กยอดนิยม เช่น JAX และ PyTorch ให้เป็นคำสั่งเครื่องที่ได้รับการปรับปรุงประสิทธิภาพขั้นสูง
คอมไพเลอร์ได้รับการออกแบบมาอย่างชัดเจนเพื่อกำหนดเป้าหมายฮาร์ดแวร์เฉพาะทางของ TPU รวมถึง Matrix Multiply Units (MXU) และ Vector Processing Units (VPU) ที่หนาแน่น ด้วยการหลอมรวมการดำเนินงานเข้ากับเคอร์เนลที่มีประสิทธิภาพโดยอัตโนมัติ XLA จึงมอบประสิทธิภาพ”ที่พร้อมใช้งานได้ทันที”อันทรงพลัง
สำหรับการอนุมาน บริษัทได้เพิ่มประสิทธิภาพสแต็กเพิ่มเติมโดย ทำให้สามารถใช้งานกลไกการให้บริการที่ล้ำสมัย เช่น vLLM บน Ironwood ผ่านทางระบบใหม่ที่รวมเป็นหนึ่งเดียว แบ็กเอนด์ ทำให้นักพัฒนาที่ใช้โมเดลในการใช้งานจริงเข้าถึงพลังอันมหาศาลได้มากขึ้น
การผลักดันฮาร์ดแวร์ของ Google เป็นองค์ประกอบของกลยุทธ์โครงสร้างพื้นฐานแบบหลายง่ามที่ใหญ่กว่ามาก
ในรายงานล่าสุด เราได้เน้นย้ำถึงแผนการอันทะเยอทะยานของ Google บางส่วน ตั้งแต่ศูนย์ข้อมูล AI เชิงกลยุทธ์ทางภูมิศาสตร์การเมืองบนเกาะคริสต์มาสของออสเตรเลีย ไปจนถึงโครงการ Suncatcher”moonshot”ซึ่งมีจุดมุ่งหมายเพื่อสร้างศูนย์ข้อมูลที่ขับเคลื่อนด้วย TPU ในอวกาศ
โครงการริเริ่มต่างๆ เน้นย้ำถึงทรัพยากรจำนวนมหาศาลที่จำเป็นเพื่อให้อยู่ในระดับแนวหน้าของ AI
[เนื้อหาแบบฝัง]
การขยายตัวของ Axion: นิยามใหม่ของการประมวลผลเพื่อวัตถุประสงค์ทั่วไป
นอกเหนือจากตัวเร่งความเร็วเฉพาะสำหรับ AI แล้ว แอปพลิเคชันสมัยใหม่ยังต้องการแบ็คโบนที่ทรงพลังและมีประสิทธิภาพสำหรับปริมาณงานในแต่ละวัน
Google กำลังจัดการเรื่องนี้ด้วยการขยายพอร์ตโฟลิโอ CPU Axion แบบ Arm แบบกำหนดเอง บริษัทประกาศว่าเครื่องเสมือน N4A ใหม่อยู่ในการแสดงตัวอย่างแล้ว ควบคู่ไปกับการแสดงตัวอย่างที่กำลังจะมีขึ้นของ C4A metal ซึ่งเป็นอินสแตนซ์ Bare-Metal รุ่นแรกของบริษัท
โปรเซสเซอร์เหล่านี้ออกแบบมาเพื่อมอบประสิทธิภาพด้านราคาที่เหนือกว่า โปรเซสเซอร์เหล่านี้จัดการกับงานตามวัตถุประสงค์ทั่วไปที่รองรับแอปพลิเคชัน AI รวมถึงการเตรียมข้อมูล ไมโครเซอร์วิสแบบคอนเทนเนอร์ และการให้บริการเว็บ
Google Axion CPU (ที่มา: Google)
ผลตอบรับจากลูกค้าในช่วงแรกๆ เน้นย้ำถึงการเพิ่มขึ้นอย่างมาก Sergei Koren หัวหน้าสถาปนิกโครงสร้างพื้นฐานของ ZoomInfo กล่าวชื่นชมอินสแตนซ์ใหม่ โดยระบุว่า”ในการดูตัวอย่างอินสแตนซ์ N4A ใหม่ของเรา เราได้วัดประสิทธิภาพด้านราคาที่เพิ่มขึ้น 60% สำหรับปริมาณงานหลักเหล่านี้ เมื่อเปรียบเทียบกับอินสแตนซ์ที่ใช้ x86″
ในทำนองเดียวกัน Vimeo รายงานการปรับปรุงประสิทธิภาพ 30% สำหรับปริมาณงานการแปลงรหัสวิดีโอหลัก เมื่อเทียบกับ VM ที่ใช้ x86
Google วางตำแหน่ง Axion ให้เป็นทางเลือกที่ชัดเจนและมีประสิทธิภาพมากกว่าโปรเซสเซอร์แบบเดิม
ตามที่ Mark Lohmeyer รองประธานและผู้จัดการทั่วไปของ AI และโครงสร้างพื้นฐานการประมวลผลของ Google Cloud กล่าว”พวกเขาจะมีประสิทธิภาพสูงกว่าโปรเซสเซอร์รุ่น x86 ที่เทียบเคียงได้ 50% และประสิทธิภาพการใช้พลังงานดีขึ้น 60% เมื่อเทียบกับอินสแตนซ์ที่ใช้ x86 ที่เทียบเคียงได้”
การนำเชิงกลยุทธ์และการแข่งขันทางอาวุธของ AI
ความมุ่งมั่นอันยิ่งใหญ่ของ Anthropic ทำหน้าที่เป็นการตรวจสอบที่มีประสิทธิภาพสำหรับซิลิคอนที่ออกแบบเองของ Google ห้องปฏิบัติการ AI ซึ่งเป็นผู้พัฒนาโมเดลตระกูล Claude วางแผนที่จะเข้าถึง TPU มากถึง 1 ล้านชิ้น ซึ่งบ่งบอกถึงความมั่นใจอย่างมากในความสามารถของแพลตฟอร์มทั้งในด้านการฝึกอบรมและการอนุมาน
James Bradbury หัวหน้าฝ่ายคอมพิวเตอร์ของบริษัท อธิบายข้อดีนี้: “การปรับปรุงประสิทธิภาพการอนุมานและความสามารถในการปรับขนาดการฝึกอบรมของ Ironwood จะช่วยให้เราปรับขนาดได้อย่างมีประสิทธิภาพ ขณะเดียวกันก็รักษาความเร็วและความน่าเชื่อถือที่ลูกค้าคาดหวังไว้”
แต่ข้อตกลงสำคัญนี้ยังคงมีอยู่ในความเป็นจริงที่ซับซ้อนและเป็นระบบคลาวด์หลายระบบ แม้ว่าความร่วมมือครั้งนี้ถือเป็นชัยชนะครั้งสำคัญของ Google แต่รายงานก็ชี้แจงว่า Anthropic ยังคงรักษากลยุทธ์โครงสร้างพื้นฐานที่หลากหลาย โดยที่ Amazon Web Services ยังคงเป็นผู้ให้บริการคลาวด์หลัก
สิ่งนี้สะท้อนให้เห็นถึงแนวโน้มของอุตสาหกรรมในวงกว้างที่ห้องปฏิบัติการ AI รายใหญ่หลีกเลี่ยงการพึ่งพาผู้ขายรายเดียว ซึ่งเป็นกลยุทธ์ที่เห็นก่อนหน้านี้เมื่อ OpenAI เริ่มใช้ Google Cloud เพื่อเสริมโครงสร้างพื้นฐาน Microsoft Azure หลัก
การเปิดตัวท่ามกลางการแข่งขันด้านอาวุธ AI ที่เข้มข้น ความพยายามในซิลิคอนแบบกำหนดเองของ Google มุ่งเป้าไปที่ความท้าทายอย่างเต็มที่ การครอบงำตลาดของ Nvidia จำเป็นต้องมีการลงทุนจำนวนมากเพื่อแข่งขัน
เพื่อตอบสนองความต้องการที่เพิ่มสูงขึ้น เมื่อเร็วๆ นี้ Google ได้เพิ่มการคาดการณ์การใช้จ่ายด้านทุนในระดับสูงสำหรับปีเป็น 93 พันล้านดอลลาร์จาก 85 พันล้านดอลลาร์
ความมุ่งมั่นทางการเงินอันยิ่งใหญ่ดังกล่าวแสดงให้เห็นว่าการควบคุมฮาร์ดแวร์พื้นฐานถูกมองว่าเป็นข้อได้เปรียบในการแข่งขันที่สำคัญ
ด้วยการเปิดตัวทั้ง Ironwood TPU ที่มีความเชี่ยวชาญสูงและ Axion CPU ที่ใช้งานทั่วไปที่มีประสิทธิภาพ Google กำลังนำเสนอผลิตภัณฑ์ที่ครอบคลุม โซลูชันที่ออกแบบร่วมกัน
บริษัทกำลังเดิมพันว่าการเสนอสแต็กฮาร์ดแวร์ที่ได้รับการปรับปรุงและคุ้มค่าแก่ลูกค้า ตั้งแต่ชิปไปจนถึงศูนย์ข้อมูล จะเป็นกุญแจสำคัญในการชนะในระยะต่อไปของการปฏิวัติ AI