การเปิดเผยล่าสุดของ MLPerf Inference v3.1 ได้นำมาซึ่งเกณฑ์มาตรฐานใหม่สำหรับ Large โมเดลภาษา (LLM) และคำแนะนำ ซึ่งแสดงถึงความก้าวหน้าครั้งสำคัญในการทดสอบ AI การวัดประสิทธิภาพ MLPerf ซึ่งพัฒนาโดย MLCommons, กลุ่มผู้นำด้าน AI ทางวิชาการ, ห้องปฏิบัติการวิจัย และทั่วทั้งอุตสาหกรรม ได้รับการออกแบบมาเพื่อให้การประเมินที่เป็นกลางของ ประสิทธิภาพการฝึกอบรมและการอนุมานสำหรับฮาร์ดแวร์ ซอฟต์แวร์ และบริการ

เวอร์ชันใหม่ได้เห็นการมีส่วนร่วมในระดับที่ไม่เคยมีมาก่อน โดยมีผลการปฏิบัติงานมากกว่า 13,500 รายการ ซึ่งเพิ่มขึ้นถึง 40% ในด้านประสิทธิภาพ ความหลากหลายในการเข้าร่วมปรากฏชัดจากผู้ส่งผลงานที่แตกต่างกัน 26 ราย รวมถึงบริษัทเทคโนโลยีรายใหญ่ เช่น Google, Intel และ NVIDIA ตลอดจนผู้เข้าร่วมครั้งแรก เช่น Connect Tech, Nutanix, Oracle และ TTA

David Kanter กรรมการบริหารของ MLCommons เน้นย้ำถึงความสำคัญของการมีส่วนร่วมนี้ โดยกล่าวว่า”การส่งผลงานไปที่ MLPerf ไม่ใช่เรื่องเล็กน้อย… ต้องใช้งานวิศวกรรมจริงและเป็นเครื่องพิสูจน์ ต่อความมุ่งมั่นของผู้ส่งของเราที่มีต่อ AI ต่อลูกค้าของพวกเขา และต่อ ML”

@MLCommons เราเพิ่งเปิดตัว @MLPerf ผลลัพธ์การอนุมานและการจัดเก็บ บันทึกการมีส่วนร่วมในผลลัพธ์ MLPerf Inference เวอร์ชัน 3.1 และผลลัพธ์ MLPerf Storage เวอร์ชัน 0.5 ครั้งแรกเน้นย้ำถึงความสำคัญที่เพิ่มขึ้นของ GenAI และพื้นที่เก็บข้อมูล ดูผลลัพธ์ทั้งหมดและเรียนรู้เพิ่มเติม https://t.co/7eycrrmOdw

— MLCommons (@ MLCommons) 11 กันยายน 2023

ผลลัพธ์การเปรียบเทียบ

วัตถุประสงค์หลักของการอนุมาน MLPerf คือการวัดความเร็วที่ระบบ AI สามารถเรียกใช้โมเดลในสถานการณ์การใช้งานที่แตกต่างกัน มีตั้งแต่แชทบอท AI ขั้นสูงไปจนถึงฟีเจอร์ความปลอดภัยของยานพาหนะ เช่น การดูแลเลนอัตโนมัติและอินเทอร์เฟซคำพูดเป็นข้อความ จุดสนใจในเวอร์ชันนี้อยู่ที่การแนะนำเกณฑ์มาตรฐาน 2 รายการ:

LLM ที่ใช้โมเดลอ้างอิง GPT-J เพื่อสรุปบทความข่าวของ CNN ซึ่งสะท้อนให้เห็นถึงการนำ AI ทั่วไปมาใช้อย่างรวดเร็วโดยมีผู้เข้าร่วม 15 คน เกณฑ์มาตรฐานผู้แนะนำที่ได้รับการอัปเดต ซึ่งสอดคล้องกับมาตรฐานอุตสาหกรรมมากขึ้น โดยใช้โมเดลอ้างอิง DLRM-DCNv2 และชุดข้อมูลที่ใหญ่ขึ้น โดยได้รับการส่งเก้าครั้ง

หากต้องการดูผลลัพธ์สำหรับ MLPerf Inference v3.1 และ MLPerf Storage v0.5 และค้นหาข้อมูลเพิ่มเติมเกี่ยวกับการวัดประสิทธิภาพ โปรดไปที่:

https://mlcommons.org/en/storage-results-05/
https://mlcommons.org/en/inference-edge-31/
https://mlcommons.org/en/inference-datacenter-31/

การครอบงำของ NVIDIA และการแสวงหาอย่างใกล้ชิดของ Intel

ชิปขั้นสูงของ NVIDIA กลายเป็นคู่แข่งอันดับต้น ๆ ในการทดสอบโมเดลภาษาขนาดใหญ่ โดยมีฮาร์ดแวร์ของ Intel ติดตามอย่างใกล้ชิด MLCommons ซึ่งเป็นที่รู้จักในด้านการวัดประสิทธิภาพชิปเซ็ต AI ที่เป็นกลาง ได้ประกาศผลการวัดประสิทธิภาพ MLPerf Inference 3.1 ใหม่

NVIDIA จัดแสดง GH200 Grace Hopper Superchip ซึ่งรวมหน่วยประมวลผลกราฟิก Hopper เข้ากับหน่วยประมวลผลกลาง Grace นำเสนอหน่วยความจำ แบนด์วิดท์ และความสามารถในการเปลี่ยนงานที่ได้รับการปรับปรุงระหว่าง GPU และซีพียูแบบ Arm ชิปเซ็ตนี้มีประสิทธิภาพเหนือกว่าระบบ HGX 100 ของ NVIDIA ประมาณ 17% อย่างไรก็ตาม ตัวเร่งความเร็ว Habana Gaudi2 ของ Intel ก็ตามหลังอยู่ไม่ไกลนัก โดยแสดงประสิทธิภาพล่าช้าเพียง 10% เมื่อเทียบกับระบบของ NVIDIA

ในสัปดาห์นี้ Nvidia ได้ประกาศการอัปเดตซอฟต์แวร์ใหม่ที่เพิ่มประสิทธิภาพของ GPU H100 AI อย่างมีประสิทธิภาพเป็นสองเท่า ซอฟต์แวร์โอเพ่นซอร์ส TensorRT-LLM ใหม่ของบริษัทซึ่งมีกำหนดเปิดตัวในสัปดาห์หน้า แสดงให้เห็นประสิทธิภาพที่เพิ่มขึ้นอย่างมาก

ใน การทดสอบโดยใช้รุ่น GPT-J 6B ระบบที่อัปเดตแสดงให้เห็นการปรับปรุงประสิทธิภาพมากกว่า A100 ถึง 8 เท่า ซึ่งก้าวกระโดดอย่างมีนัยสำคัญจากข้อได้เปรียบ 4 เท่าก่อนหน้านี้. นอกจากนี้ เมื่อประเมินบน Llama2 LLM ของ Meta แล้ว H100 ที่ปรับปรุงด้วย TensorRT-LLM ก็เหนือกว่า A100 ด้วยปัจจัย 4.6 ซึ่งเป็นการปรับปรุงที่ชัดเจนจาก 2.6 เท่าก่อนการอัปเดต

Categories: IT Info