นักวิจัยที่ Tencent AI Lab ได้เปิดตัวเฟรมเวิร์ก AI ใหม่ที่ออกแบบมาเพื่อทำลายขีดจำกัดความเร็วของโมเดลภาษาขนาดใหญ่ในปัจจุบัน

ซึ่งมีรายละเอียดในบทความที่เผยแพร่ทางออนไลน์ในสัปดาห์นี้ ระบบนี้มีชื่อว่า CALM สำหรับโมเดลภาษาแบบถอยหลังอัตโนมัติต่อเนื่อง มันท้าทายโดยตรงต่อกระบวนการที่ช้าแบบโทเค็นต่อโทเค็นซึ่งขับเคลื่อน AI ที่สร้างได้มากที่สุดในปัจจุบัน

แทนที่จะคาดเดาคำเล็กๆ ทีละคำ CALM เรียนรู้ที่จะทำนายเวกเตอร์เดี่ยวที่แสดงถึงข้อความทั้งก้อน วิธีการนี้อาจทำให้การสร้าง AI เร็วขึ้นและมีประสิทธิภาพมากขึ้น โดยเป็นการเปิดเส้นทางใหม่สำหรับการปรับขนาดโมเดล

The Tyranny of the Token: Autoregressive ของ AI คอขวด

จุดอ่อนพื้นฐานของ LLM สมัยใหม่คือการพึ่งพาการสร้างโทเค็นต่อโทเค็นแบบอัตโนมัติ การพึ่งพาตามลำดับนี้เป็นคอขวดที่ใหญ่ที่สุดเพียงข้อเดียวซึ่งจำกัดความเร็วและความสามารถในการปรับขนาดของ AI

การสร้างบทความขนาดยาวต้องใช้ขั้นตอนการทำนายตามลำดับหลายพันขั้นตอน ทำให้กระบวนการในการคำนวณมีราคาแพงและช้า นี่ไม่ใช่แค่ปัญหาทางวิชาการเท่านั้น นั่นเป็นสาเหตุที่การใช้โมเดลที่มีประสิทธิภาพมีค่าใช้จ่ายสูงและการสร้างรูปแบบยาวแบบเรียลไทม์ยังคงเป็นความท้าทาย

ปัญหาด้านประสิทธิภาพนี้ได้กลายเป็นสมรภูมิสำคัญสำหรับนักพัฒนา AI ดังที่ฝ่ายวิจัยของ Google ระบุไว้ก่อนหน้านี้ “ในขณะที่เราปรับใช้โมเดลเหล่านี้กับผู้ใช้จำนวนมากขึ้น การทำให้โมเดลเหล่านี้เร็วขึ้นและถูกลงโดยไม่กระทบต่อคุณภาพถือเป็นความท้าทายที่สำคัญ”

อุตสาหกรรมได้สำรวจโซลูชันมากมาย ตั้งแต่การเก็งกำไรแบบต่อเนื่องของ Google ไปจนถึงเทคนิคการบีบอัดแบบใหม่ ขณะนี้ งานของ Tencent เสนอวิธีแก้ปัญหาที่รุนแรงยิ่งขึ้น

บทความนี้เสนอพิมพ์เขียวสำหรับโมเดลภาษาที่มีประสิทธิภาพเป็นพิเศษระดับใหม่ และปัญหาคอขวดที่เกิดจากโทเค็นในด้านความเร็ว

เป้าหมายคือการเปลี่ยนหน่วยการทำนายโดยพื้นฐานจากโทเค็นข้อมูลต่ำเพียงโทเค็นเดียวไปเป็นสิ่งที่สมบูรณ์ยิ่งขึ้น

กระบวนทัศน์ใหม่: การทำนายเวกเตอร์แทนโทเค็น

ใน ความท้าทายโดยตรงต่อสภาพที่เป็นอยู่ของ generative AI ทำให้ CALM ปรับกรอบงานการทำนายใหม่ทั้งหมด นักวิจัยเสนอแกนมาตราส่วนใหม่สำหรับ LLM

“เรายืนยันว่าการเอาชนะปัญหาคอขวดนี้จำเป็นต้องมีแกนการออกแบบใหม่สำหรับมาตราส่วน LLM นั่นคือการเพิ่มแบนด์วิดท์ความหมายของแต่ละขั้นตอนการกำเนิด”พวกเขาเขียนไว้ในรายงาน

ด้วยการเพิ่ม”แบนด์วิดท์ความหมาย”นี้ โมเดลจึงสามารถประมวลผลข้อมูลเพิ่มเติมได้ในขั้นตอนเดียว CALM บรรลุเป้าหมายนี้ผ่านกระบวนการสองขั้นตอนที่เป็นนวัตกรรมซึ่งทำงานในพื้นที่ต่อเนื่องแทนที่จะแยกจากกัน

หัวใจของการออกแบบของ CALM คือตัวเข้ารหัสอัตโนมัติที่มีความเที่ยงตรงสูง ส่วนประกอบนี้เรียนรู้ที่จะบีบอัดโทเค็น K จำนวนหนึ่ง เช่น โทเค็นสี่ตัว ให้เป็นเวกเตอร์ต่อเนื่องที่มีความหนาแน่นเพียงตัวเดียว

สิ่งสำคัญที่สุดคือ สามารถสร้างโทเค็นดั้งเดิมขึ้นใหม่จากเวกเตอร์นี้ด้วยความแม่นยำมากกว่า 99.9% จากนั้น โมเดลภาษาที่แยกออกมาจะดำเนินการทำนายแบบถดถอยอัตโนมัติในพื้นที่เวกเตอร์ใหม่นี้

ตามเอกสารประกอบอย่างเป็นทางการของโครงการ“แทนที่จะทำนายโทเค็นแยกกันทีละโทเค็น CALM เรียนรู้ที่จะทำนายเวกเตอร์ต่อเนื่องเดี่ยวที่แสดงถึงโทเค็น K ทั้งหมด”

ซึ่งจะช่วยลดจำนวนขั้นตอนการสร้าง ด้วยปัจจัย K ซึ่งนำไปสู่การเพิ่มประสิทธิภาพอย่างมีนัยสำคัญ

ชุดเครื่องมือไร้โอกาส: วิธีที่ CALM เรียนรู้และวัดความสำเร็จ

การเปลี่ยนจากโทเค็นแบบแยกไปสู่เวกเตอร์แบบต่อเนื่องทำให้เกิดความท้าทายที่สำคัญ: แบบจำลองไม่สามารถคำนวณการกระจายความน่าจะเป็นที่ชัดเจนเหนือผลลัพธ์ที่เป็นไปได้ทั้งหมดโดยใช้เลเยอร์ softmax มาตรฐาน

วิธีนี้ทำให้วิธีการฝึกอบรมและการประเมินผลแบบดั้งเดิมซึ่งต้องอาศัยการคำนวณความน่าจะเป็น ใช้ไม่ได้ เพื่อแก้ไขปัญหานี้ ทีมงาน Tencent ได้พัฒนากรอบการทำงานที่ครอบคลุมและปราศจากความเป็นไปได้

สำหรับการฝึกอบรม CALM ใช้วิธีการฝึกอบรมแบบใช้พลังงาน ซึ่งใช้กฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัดเพื่อเป็นแนวทางในแบบจำลองโดยไม่จำเป็นต้องคำนวณความน่าจะเป็น

สำหรับการประเมิน นักวิจัยได้แนะนำตัวชี้วัดใหม่ที่เรียกว่า BrierLM BrierLM แตกต่างจากตัวชี้วัดแบบเดิมๆ เช่น ความฉงนสนเท่ห์ โดยได้มาจากคะแนน Brier ซึ่งเป็นเครื่องมือจากการพยากรณ์ความน่าจะเป็น

ช่วยให้สามารถเปรียบเทียบความสามารถของโมเดลตามตัวอย่างอย่างยุติธรรม โดยการตรวจสอบว่าการคาดการณ์สอดคล้องกับความเป็นจริงได้ดีเพียงใด ซึ่งเป็นวิธีการที่เหมาะสมอย่างยิ่งสำหรับแบบจำลองที่แนวโน้มไม่น่าจะเป็นไปได้

แกนใหม่สำหรับการปรับขนาด AI และการแข่งขันเพื่อประสิทธิภาพ

ผลกระทบเชิงปฏิบัติของสถาปัตยกรรมใหม่นี้คือการแลกเปลี่ยนระหว่างการประมวลผลและประสิทธิภาพที่เหนือกว่า

โมเดล CALM ลดข้อกำหนดด้านการประมวลผลเพื่อการฝึกอบรมลง 44% และการอนุมานลง 33% เมื่อเทียบกับพื้นฐานที่แข็งแกร่ง สิ่งนี้แสดงให้เห็นว่าการปรับขนาดแบนด์วิดท์ความหมายของแต่ละขั้นตอนเป็นกลไกใหม่ที่มีประสิทธิภาพในการปรับปรุงประสิทธิภาพการคำนวณ

งานวางตำแหน่ง CALM ให้เป็นคู่แข่งสำคัญในการแข่งขันทั่วทั้งอุตสาหกรรมเพื่อสร้าง AI ที่เร็วขึ้น ถูกลง และเข้าถึงได้มากขึ้น

Google ได้จัดการกับปัญหาความเร็วของ AI ด้วยวิธีการต่างๆ เช่น การเรียงซ้อนแบบเก็งกำไรและการเรียนรู้แบบซ้อน บริษัทสตาร์ทอัพอื่นๆ เช่น Inception กำลังสำรวจสถาปัตยกรรมที่แตกต่างกันอย่างสิ้นเชิง เช่น LLM ที่อิงการแพร่กระจายใน “Mercury Coder” เพื่อหลีกหนีจาก”คอขวดเชิงโครงสร้าง”ของการถดถอยอัตโนมัติ

แนวทางที่หลากหลายเหล่านี้ร่วมกันเน้นย้ำถึงการเปลี่ยนแปลงในการพัฒนา AI อุตสาหกรรมกำลังย้ายจากการมุ่งเน้นไปที่ขนาดเพียงอย่างเดียวไปสู่การแสวงหาปัญญาประดิษฐ์ที่ชาญฉลาดและประหยัดมากขึ้นอย่างยั่งยืนมากขึ้น วิธีการแบบเวกเตอร์ของ CALM นำเสนอเส้นทางใหม่ไปข้างหน้าในแนวหน้านั้น

Categories: IT Info