กลุ่มนักวิจัยของมหาวิทยาลัยและอเมซอนได้เปิดตัวสถาปัตยกรรม AI ใหม่ Transformer (EBT) มันถูกออกแบบมาเพื่อให้แบบจำลองที่มีทักษะการวิเคราะห์เหมือนมนุษย์มากขึ้น วิธีการนี้มีจุดมุ่งหมายเพื่อปลูกฝัง“ การคิดระบบ 2″ ลงใน AI ซึ่งมักจะอาศัยการจดจำรูปแบบที่รวดเร็วและใช้งานง่าย
รายละเอียดใน
คำถามหลักของโครงการตามที่นักวิจัยโพสต์คือ:“ เป็นไปได้หรือไม่ สิ่งนี้ท้าทายกระบวนทัศน์ปัจจุบันของการพัฒนา AI งานมีอยู่ใน หน้าโครงการ และ สิ่งที่น่าเบื่อ เกือบจะในทันที อย่างไรก็ตามโมเดลเหล่านี้มักจะสะดุดกับงานที่ต้องใช้”ระบบ 2 การคิด”-การใช้เหตุผลที่ช้ากว่าโดยเจตนาและการวิเคราะห์มนุษย์ใช้สำหรับปัญหาที่ซับซ้อนเช่นคณิตศาสตร์หลายขั้นตอนหรือปริศนาเชิงตรรกะ เฟรมเวิร์ก EBT เป็นความพยายามโดยตรงในการสร้างกระบวนการทางปัญญาที่ลึกซึ้งยิ่งขึ้นนี้โดยตรงในสถาปัตยกรรมของโมเดล ที่หัวใจการทำนายการพยากรณ์ของ EBT เป็นตัวต่อการปรับให้เหมาะสม หม้อแปลงมาตรฐานใช้อินพุตและสร้างเอาต์พุตในการส่งต่อไปข้างหน้าเดียว ในทางตรงกันข้าม EBT เรียนรู้“ ภูมิทัศน์พลังงาน” ที่ซับซ้อนมิติสูงสำหรับการคาดการณ์ที่เป็นไปได้ทั้งหมดที่เกี่ยวข้องกับบริบทที่กำหนด แทนที่จะสร้างคำตอบโดยตรงโมเดลเริ่มต้นด้วยการเดาแบบสุ่มและมีเสียงดัง จากนั้นมันใช้หลักการของการไล่ระดับสีไล่ระดับสีเพื่อปรับการเดานี้ซ้ำ ๆ โดยพื้นฐานแล้ว”เดิน”มันลงเนินบนภูมิทัศน์พลังงานที่เรียนรู้จนกว่ามันจะตั้งอยู่ในจุดต่ำสุดที่เป็นไปได้หรือ”Valley Energy” รัฐพลังงานต่ำสุดนี้แสดงถึงคำตอบที่สอดคล้องกันมากที่สุด กระบวนการปรับแต่งซ้ำ ๆ นี้เป็นแกนหลักของกลไก”การคิด”ของ EBT ช่วยให้แบบจำลองสามารถสำรวจพื้นที่ของโซลูชันที่มีศักยภาพมากกว่าที่จะถูกล็อคลงในเส้นทางเดียว วิธีการนี้ออกแบบมาเพื่อรวบรวมความรู้ความเข้าใจสามประการมักจะหายไปในแบบจำลองมาตรฐาน อย่างแรกคือการจัดสรรการคำนวณแบบไดนามิก สำหรับปัญหาง่าย ๆ แบบจำลองอาจพบขั้นต่ำพลังงานในไม่กี่ขั้นตอน สำหรับหนึ่งที่ซับซ้อนมันสามารถทำตามขั้นตอนอื่น ๆ อีกมากมายใช้จ่าย“ ความคิด” มากขึ้นในปัญหา แง่มุมที่สองคือความสามารถในการสร้างแบบจำลองความไม่แน่นอน ภูมิทัศน์พลังงานที่ราบรื่นด้วยขั้นต่ำที่ชัดเจนหนึ่งอันบ่งบอกถึงความมั่นใจสูง ภูมิทัศน์ที่ขรุขระกับหุบเขาท้องถิ่นหลายแห่งแสดงให้เห็นว่าแบบจำลองนั้นไม่แน่นอนเนื่องจากมีคำตอบที่น่าเชื่อถือหลายอย่าง สิ่งนี้ให้ความเข้าใจที่เหมาะสมยิ่งขึ้นเกี่ยวกับความมั่นใจของแบบจำลอง ที่สามสถาปัตยกรรมรวมถึงกลไกที่แท้จริงสำหรับการตรวจสอบการทำนาย คะแนนพลังงานสุดท้ายของการทำนายทำหน้าที่เป็นการตรวจสอบคุณภาพในตัว คะแนนต่ำหมายถึงคำตอบที่มีคุณภาพสูงและตรวจสอบได้ในขณะที่คะแนนสูงส่งสัญญาณที่ไม่ดีทั้งหมดโดยไม่จำเป็นต้องใช้แบบจำลองการตรวจสอบแยกต่างหาก โดยการรวมความสามารถทั้งสามนี้ EBT มีจุดมุ่งหมายเพื่อสร้างรูปแบบการใช้เหตุผลที่แข็งแกร่งและทั่วไปมากขึ้น มันเคลื่อนที่เกินกว่าการสร้างรูปแบบที่เรียบง่ายไปสู่กระบวนการของการแก้ปัญหาซ้ำ ๆ ซ้ำ ๆ ทำเครื่องหมายขั้นตอนแนวคิดที่สำคัญในการแสวงหาปัญญาประดิษฐ์ที่มีความสามารถมากขึ้น นักวิจัยอ้างว่าวิธีการนี้ ในขณะที่หม้อแปลงมาตรฐานจะต้องเรียนรู้เส้นทางโดยตรงไปยังคำตอบ EBT เรียนรู้ที่จะให้คะแนน’ความถูกต้อง’ของคำตอบใด ๆ ที่กำหนด-งานที่ง่ายกว่าที่ดูเหมือนจะพูดคุยอย่างมีประสิทธิภาพมากขึ้น กระดาษของพวกเขารายงานว่า EBTs มาตราส่วนได้อย่างมีประสิทธิภาพมากกว่าพื้นฐานของ Transformer ++ ขั้นสูงแสดงให้เห็นถึงอัตราการปรับขนาดที่สูงขึ้นถึง 35% เมื่อเทียบกับข้อมูล ประสิทธิภาพของข้อมูลที่ได้รับการปรับปรุงเป็นสิ่งสำคัญโดยเฉพาะอย่างยิ่ง มันแสดงให้เห็นว่าในระดับ EBT สามารถบรรลุประสิทธิภาพเช่นเดียวกับหม้อแปลงมาตรฐานในขณะที่การฝึกอบรมเกี่ยวกับข้อมูลน้อยลงอย่างมีนัยสำคัญ ในยุคที่อุตสาหกรรมกำลังเข้าใกล้ขีด จำกัด ของข้อมูลการฝึกอบรมที่มีคุณภาพสูงบนเว็บการพัฒนาสถาปัตยกรรมที่ประหยัดข้อมูลมากขึ้นเป็นเป้าหมายเชิงกลยุทธ์ที่สำคัญสำหรับความคืบหน้าของ AI อย่างต่อเนื่อง การคิด”การคิด”ดังกล่าว ขั้นแรกโมเดลสามารถดำเนินการตามขั้นตอนการปรับแต่งซ้ำ ๆ ได้มากขึ้นในการทำนายเดียวโดยอุทิศให้กับการคำนวณปัญหาที่ยากขึ้นอย่างมีประสิทธิภาพมากขึ้น ประการที่สองมันสามารถสร้างคำตอบของผู้สมัครหลายคนและใช้ฟังก์ชั่นพลังงานภายในเพื่อตรวจสอบตนเองและเลือกคำตอบด้วยพลังงานต่ำสุดซึ่งบ่งบอกถึงความเข้ากันได้สูงสุด การเพิ่มประสิทธิภาพนี้เด่นชัดที่สุดในงานนอกการแจกแจง (OOD)-ปัญหาที่แตกต่างจากข้อมูลการฝึกอบรม ผู้เขียนนำ Alexi Gladstone กล่าวว่า”หม้อแปลงพลังงานที่ใช้พลังงานเป็นวิธีแรก ด้วยการ“ คิด” นานขึ้นในการอนุมาน EBTS ปรับปรุงประสิทธิภาพการทำงานของภาษาได้มากถึง 29% สิ่งนี้ชี้ให้เห็นว่ากระบวนการวนซ้ำช่วยให้พวกเขาให้เหตุผลที่แข็งแกร่งมากขึ้นในสถานการณ์ใหม่ที่โมเดลมาตรฐานอาจพึ่งพาการจับคู่รูปแบบที่มีข้อบกพร่อง การฝึกอบรมแบบจำลองเหล่านี้ต้องการการดำเนินงานแบบลอยตัว (FLOPS) ระหว่าง 3.3 ถึง 6.6 เท่า (FLOPS) มากกว่าหม้อแปลงมาตรฐาน ค่าใช้จ่ายที่สำคัญนี้ไม่ได้เป็นเพียงแค่ความกังวลทางทฤษฎี มันเป็นอุปสรรคสำคัญในการยอมรับอาจ จำกัด การวิจัยและพัฒนา EBT ให้กับห้องปฏิบัติการทางวิชาการที่ได้รับการสนับสนุนมากที่สุดและ บริษัท เทคโนโลยีขนาดใหญ่ที่มีทรัพยากรการคำนวณมากมาย ความต้องการฟลอพสูงเกิดขึ้นโดยตรงจากกระบวนการเพิ่มประสิทธิภาพซ้ำ ๆ ที่สำคัญของการออกแบบของ EBT ซึ่งแตกต่างจากการส่งต่อไปข้างหน้าแบบเดียวของโมเดลแต่ละขั้นตอนการปรับแต่งใน EBT นั้นเกี่ยวข้องกับการคำนวณการไล่ระดับสีที่ซับซ้อนเพื่อกำหนดทิศทางของ’ความคิด’ถัดไป กระบวนการนี้ซึ่งต้องการการคำนวณอนุพันธ์อันดับสอง (หรือการประมาณที่มีประสิทธิภาพเช่นผลิตภัณฑ์ Hessian-Vector) เป็นพื้นฐานที่เข้มข้นกว่า ทีมรับทราบว่านี่เป็นพื้นที่สำคัญสำหรับการเพิ่มประสิทธิภาพในอนาคตเนื่องจากกระบวนการ’คิด’ถูกกว่านี้เป็นสิ่งจำเป็นสำหรับการปรับใช้ในทางปฏิบัติ นอกจากนี้การทดลองเริ่มต้นได้ดำเนินการกับแบบจำลองที่มีพารามิเตอร์สูงถึง 800 ล้านพารามิเตอร์ นี่คือสัดส่วนของขนาดของระบบ AI ที่ใหญ่ที่สุดในปัจจุบันซึ่งมักจะเกินพารามิเตอร์หลายร้อยพันล้านพารามิเตอร์ การปรับขนาดสถาปัตยกรรมตามคำสั่งของขนาดนั้นเป็นเรื่องยากที่จะเปิดเผยความท้าทายที่ไม่คาดฝันเช่นความไม่แน่นอนในการฝึกอบรมหรือภูมิทัศน์พลังงานที่ซับซ้อนเกินกว่าที่จะนำทางได้อย่างมีประสิทธิภาพ ดังนั้นจึงยังคงเป็นคำถามที่เปิดกว้างว่าประสิทธิภาพการทำงานที่สังเกตได้ในระดับที่เล็กกว่านี้จะถือหรือแม้กระทั่งขยายเมื่อนำไปใช้กับโมเดลชายแดน ในที่สุด EBT นำเสนอการแลกเปลี่ยนขั้นพื้นฐานสำหรับชุมชน AI คำตอบจะขึ้นอยู่กับแอปพลิเคชัน สำหรับงานทางวิทยาศาสตร์หรือการวิเคราะห์ที่มีสเตคสูงราคาอาจเป็นธรรม แต่สำหรับการใช้งานทั่วไปการวิเคราะห์ต้นทุนและผลประโยชน์ยังคงเป็นปัญหาที่สำคัญและไม่ได้รับการแก้ไข บริษัท หลายแห่งกำลังจัดการกับความท้าทายนี้จากมุมที่แตกต่างกันโดยเน้นถึงความจำเป็นที่สำคัญในการลดค่าใช้จ่ายอันยิ่งใหญ่ที่เกี่ยวข้องกับ AI ขนาดใหญ่ วิธีการแข่งขันเหล่านี้จัดการกับประสิทธิภาพในขั้นตอนต่าง ๆ Compactifai ของ Multiverse บีบอัดโมเดลแบบคงที่ NAMMS ของ Sakana เพิ่มประสิทธิภาพแคช KV แบบไดนามิกในระหว่างการอนุมาน Bamba ของ IBM ใช้สถาปัตยกรรมไฮบริดเพื่อเพิ่มความเร็วในการประมวลผลลำดับ ในทางตรงกันข้าม EBTs โดยพื้นฐานเปลี่ยนกลไกการทำนายเอง แทนที่จะเพิ่มประสิทธิภาพของโมเดลสำเร็จรูปหรือหน่วยความจำ EBTs รวมกระบวนการ“ คิด” โดยตรงกับวิธีการทำนายแต่ละครั้งโดยมีจุดประสงค์เพื่อการวางนัยทั่วไปและการใช้เหตุผลที่ดีขึ้นจากพื้นดินขึ้น เช่นการคำนวณการเริ่มต้นลิขสิทธิ์ของสเปนมุ่งเน้นไปที่การบีบอัดแบบจำลอง ซีอีโอของมันคือ Enrique Lizaso Olmos กล่าวว่า“ ภูมิปัญญาที่แพร่หลายคือการหดตัวของ LLMS นั้นมีค่าใช้จ่ายลิขสิทธิ์กำลังเปลี่ยนแปลงอยู่” ในขณะเดียวกันความเร็วในการอนุมานของโมเดล Bamba ของ IBM Raghu Ganti นำโครงการของ IBM อธิบายกลยุทธ์:“ ทุกอย่างกลับมาที่การลดแคช KV …ปริมาณงานมากขึ้น นวัตกรรมอื่น ๆ เช่นระบบการเพิ่มประสิทธิภาพหน่วยความจำของ Sakana AI นั้นมีจุดมุ่งหมายที่จะทำให้หม้อแปลงมีประสิทธิภาพมากขึ้น นักวิจัยของ Sakana พบว่า“ วิวัฒนาการเอาชนะความไม่แตกต่างของการดำเนินงานการจัดการหน่วยความจำของเราซึ่งเกี่ยวข้องกับไบนารี’จำ’หรือ’ลืม’ผลลัพธ์” วิธีการที่หลากหลายเหล่านี้แสดงการเปลี่ยนแปลงในการพัฒนา AI เมื่อโมเดลเติบโตขึ้นอุตสาหกรรมกำลังแข่งเพื่อหาวิธีที่ยั่งยืนในการฝึกอบรมและปรับใช้ นักวิจัย EBT เชื่อว่างานของพวกเขาเป็นส่วนสำคัญของอนาคตนี้โดยสรุปว่า“ EBTS เป็นกระบวนทัศน์ใหม่ที่มีแนวโน้มสำหรับการปรับขนาดทั้งความสามารถในการเรียนรู้และการคิดของแบบจำลอง” วิธีการที่หม้อแปลงพลังงานที่ใช้พลังงาน’คิด’
ประสิทธิภาพที่มีแนวโน้ม แต่ราคาที่สำคัญ
อุตสาหกรรมที่กว้างขึ้นผลักดันประสิทธิภาพของ AI