การวิจัยของ Google เมื่อวันที่ 7 พฤศจิกายน 2025 ได้เปิดตัวกระบวนทัศน์แมชชีนเลิร์นนิงใหม่ที่เรียกว่า Nested Learning ซึ่งออกแบบมาเพื่อแก้ปัญหาการลืมครั้งใหญ่ในโมเดล AI
ปัญหาที่มีมายาวนานนี้ทำให้โมเดลลบความรู้เก่าเมื่อเรียนรู้ข้อมูลใหม่ เพื่อเป็นการพิสูจน์แนวคิด ทีมงานได้เปิดเผย”ความหวัง”ซึ่งเป็นสถาปัตยกรรมที่ปรับเปลี่ยนได้เองซึ่งสามารถเรียนรู้และปรับเปลี่ยนได้อย่างต่อเนื่อง
วิธีการใหม่นี้ถือว่า AI ไม่ใช่โปรแกรมเดียว แต่เป็นระบบของกระบวนการเรียนรู้แบบซ้อนที่อัปเดตในอัตราที่ต่างกัน แนวทางนี้เลียนแบบวิธีการทำงานของหน่วยความจำของมนุษย์ โดยมีเป้าหมายเพื่อสร้างระบบ AI แบบไดนามิกและมีประสิทธิภาพมากขึ้น ซึ่งสามารถปรับปรุงได้ตลอดเวลาโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่ต้น
การเอาชนะความจำเสื่อมของ AI: ความท้าทายของการลืมหายนะ
จุดอ่อนพื้นฐานของ AI ขั้นสูงมากมาย โมเดลคือการไม่สามารถเรียนรู้ตามลำดับได้ เมื่อโครงข่ายประสาทเทียมได้รับการฝึกฝนเกี่ยวกับข้อมูลใหม่ มักจะลืมข้อมูลที่ตนเชี่ยวชาญก่อนหน้านี้อย่างกะทันหันและรุนแรง
ปรากฏการณ์นี้เรียกว่าการลืมแบบหายนะหรือการรบกวนแบบหายนะ ถือเป็นอุปสรรคสำคัญในการสร้าง AI ที่สามารถพัฒนาไปพร้อมกับประสบการณ์ใหม่ ๆ ได้อย่างแท้จริง นับตั้งแต่ค้นพบครั้งแรกโดยนักวิจัยในช่วงปลายทศวรรษ 1980
ปัญหานี้เกิดขึ้นจากสิ่งที่นักวิทยาศาสตร์ด้านความรู้ความเข้าใจเรียกว่า “ปัญหาด้านเสถียรภาพ-พลาสติก”ระบบการเรียนรู้ที่มีประสิทธิภาพต้องเป็นพลาสติกเพียงพอที่จะได้รับความรู้ใหม่ แต่ยังมีเสถียรภาพเพียงพอที่จะป้องกันไม่ให้ความรู้ใหม่นั้นเขียนทับความทรงจำที่มีอยู่
โครงข่ายประสาทเทียมมาตรฐานส่วนใหญ่ โดยเฉพาะอย่างยิ่งเครือข่ายที่ใช้ การเผยแพร่กลับ นั้นมีพลาสติกสูง พารามิเตอร์ภายในหรือน้ำหนักได้รับการปรับเพื่อลดข้อผิดพลาดในงานใหม่ให้เหลือน้อยที่สุด
อย่างไรก็ตาม เนื่องจากเครือข่ายเหล่านี้ใช้การนำเสนอแบบกระจาย ซึ่งความรู้จะถูกจัดเก็บไว้ตามน้ำหนักที่ใช้ร่วมกันที่หลากหลาย การอัปเดตน้ำหนักเหล่านี้สำหรับงานใหม่ย่อมขัดขวางรูปแบบที่จำเป็นในการเรียกคืนข้อมูลเก่าอย่างหลีกเลี่ยงไม่ได้
การลืมอันหายนะเกิดขึ้นเมื่อพารามิเตอร์ที่ไม่ควรเคลื่อนไหว ถูกเขย่าด้วยการไล่ระดับสีขนาดใหญ่อย่างกะทันหันเมื่อความสับสนเพิ่มขึ้น กระบวนการนี้ซ้อนทับข้อมูลใหม่ทับข้อมูลเก่าได้อย่างมีประสิทธิภาพ นำไปสู่การสูญเสียการเรียนรู้ดั้งเดิมอย่างรุนแรงและมักจะสูญสิ้นไป
ข้อจำกัดนี้ตรงกันข้ามกับการเรียนรู้ของมนุษย์อย่างมาก ซึ่งโดยทั่วไปเกี่ยวข้องกับการลืมอย่างค่อยเป็นค่อยไป แทนที่จะเป็นการลบล้างทักษะหรือความรู้อย่างกะทันหัน
การประกาศของ Google นำมาซึ่งการเปรียบเทียบอันทรงพลังกับภาวะความจำเสื่อมก่อนกำหนด ซึ่งเป็นสภาวะทางระบบประสาทที่บุคคลไม่สามารถสร้างความทรงจำใหม่ระยะยาวได้ โมเดลภาษาขนาดใหญ่ในปัจจุบัน (LLM) ก็มีข้อจำกัดเช่นเดียวกัน ความรู้ของพวกเขาถูกจำกัดอยู่ที่ข้อมูลก่อนการฝึกอบรมอันกว้างใหญ่และข้อมูลทันทีที่ป้อนลงในหน้าต่างบริบท
พวกเขาไม่สามารถบูรณาการประสบการณ์ใหม่เข้ากับฐานความรู้หลักของพวกเขาได้ ดังที่บล็อกของ Google Research ระบุว่า”เมื่อพูดถึงการเรียนรู้อย่างต่อเนื่องและการพัฒนาตนเอง สมองของมนุษย์ถือเป็นมาตรฐานที่ยอดเยี่ยม”
อุปสรรคนี้ไม่ได้เป็นเพียงความไม่สะดวกทางทฤษฎีเท่านั้น มันเป็นอุปสรรคสำคัญในทางปฏิบัติที่ทำให้ AI ไม่สามารถปรับตัวเข้ากับสภาพแวดล้อมในโลกแห่งความเป็นจริงที่มีพลวัตซึ่งมีข้อมูลใหม่ๆ อยู่เสมอ
การเรียนรู้แบบซ้อน: กระบวนทัศน์ใหม่ที่รวมสถาปัตยกรรมและการเพิ่มประสิทธิภาพ
เพื่อแก้ไขข้อบกพร่องที่เกิดขึ้นอย่างต่อเนื่องข้อหนึ่งของ AI นักวิจัยของ Google ได้เสนอกรอบการทำงานที่จินตนาการถึงโครงสร้างของโมเดลการเรียนรู้ใหม่
กระบวนทัศน์ใหม่ที่เรียกว่าการเรียนรู้แบบซ้อน (NL) ก้าวไปไกลกว่ามุมมองแบบเดิมๆ ของการซ้อนชั้น แต่จะถือว่าโมเดลไม่ใช่เอนทิตีแบบเสาหิน แต่เป็นชุดของปัญหาการปรับให้เหมาะสมหลายระดับที่เชื่อมโยงถึงกันซึ่งทำงานพร้อมกัน
แนวทางนี้เป็นการรวมสถาปัตยกรรมของโมเดลและอัลกอริธึมการฝึกอบรมโดยพื้นฐาน โดยมองว่าเป็น”ระดับ”ที่แตกต่างกันของกระบวนการหลักเดียวกัน
แต่ละระดับภายในเฟรมเวิร์ก Nested Learning มี”กระแสบริบท”ที่แตกต่างกันออกไป ซึ่งเป็นกระแสข้อมูลเฉพาะที่เรียนรู้จากมัน มันอัพเดตตามความถี่ของมันเอง การออกแบบนี้ได้รับแรงบันดาลใจจากการประมวลผลหลายช่วงเวลาที่พบในสมองของมนุษย์ ซึ่งวงจรประสาทที่แตกต่างกันทำงานด้วยความเร็วที่แตกต่างกัน คล้ายกับคลื่นสมอง
ดังที่รายงานการวิจัยระบุว่า”NL เผยให้เห็นว่าวิธีการเรียนรู้เชิงลึกที่มีอยู่จะเรียนรู้จากข้อมูลผ่านการบีบอัดโฟลว์บริบทของตนเอง และอธิบายว่าการเรียนรู้ในบริบทเกิดขึ้นได้อย่างไรในแบบจำลองขนาดใหญ่”
สิ่งนี้ทำให้เกิดรูปแบบการเรียนรู้ที่ละเอียดและมีประสิทธิภาพมากขึ้น โดยที่บางส่วนของโมเดลสามารถปรับตัวเข้ากับข้อมูลใหม่ได้อย่างรวดเร็ว ในขณะที่บางรายการรวบรวมความรู้ได้ช้ากว่า
ข้อมูลเชิงลึกหลักของ Nested Learning คือการวางกรอบองค์ประกอบแมชชีนเลิร์นนิงมาตรฐานให้เป็นรูปแบบของหน่วยความจำแบบเชื่อมโยง งานวิจัยนี้แสดงให้เห็นว่ากระบวนการ backpropagation นั้นสามารถสร้างแบบจำลองเป็นหน่วยความจำแบบเชื่อมโยงที่เรียนรู้ที่จะแมปจุดข้อมูลกับ”สัญญาณเซอร์ไพรส์เฉพาะที่”ซึ่งเป็นข้อผิดพลาดหรือการไล่ระดับสี
สัญญาณนี้จะวัดปริมาณว่าข้อมูลไม่คาดคิดเพียงใด ยิ่งไปกว่านั้น เฟรมเวิร์กจะตีความเครื่องมือเพิ่มประสิทธิภาพทั่วไป เช่น Adam หรือ SGD ด้วย Momentum อีกครั้งในชื่อ “Deep Optimizers”
โมดูลเหล่านี้เป็นโมดูลหน่วยความจำที่เรียนรู้ที่จะบีบอัดประวัติของการไล่ระดับสีในอดีตเพื่อแจ้งการอัปเดตในอนาคต แทนที่จะเป็นเพียงสูตรทางคณิตศาสตร์คงที่
แม้ว่าการใช้งานจะยังใหม่อยู่ แนวคิดของการเรียนรู้แบบอ้างอิงตนเองก็มีรากฐานที่ลึกซึ้งในการวิจัย AI ทีมงาน Google อ้างอิงงานพื้นฐานตั้งแต่ต้นทศวรรษ 1990 ซึ่งรวมถึงรายงานปี 1992 โดย Jürgen Schmidhuber เกี่ยวกับโครงข่ายประสาทเทียมที่สามารถปรับเปลี่ยนกฎการเรียนรู้ของตนเองในทางทฤษฎีได้
การเรียนรู้แบบซ้อนมีจุดมุ่งหมายเพื่อสร้างกรอบการทำงานที่ใช้งานได้จริงและสอดคล้องกันเพื่อบรรลุความทะเยอทะยานทางทฤษฎีที่มีมายาวนานเหล่านี้ในที่สุด โดยสร้างเส้นทางที่ชัดเจนสู่แบบจำลองที่สามารถเรียนรู้วิธีการเรียนรู้ได้อย่างแท้จริง
ความหวังบนขอบฟ้า: AI ที่ปรับเปลี่ยนตัวเองซึ่งเรียนรู้วิธีการเรียนรู้
สถาปัตยกรรม”ความหวัง”ได้รับแรงบันดาลใจมาจากวิธีที่สมองมนุษย์ประมวลผลความทรงจำ โดยทำหน้าที่เป็นการพิสูจน์แนวคิดครั้งแรกสำหรับ กระบวนทัศน์การเรียนรู้แบบซ้อน
ความหวังคือระบบที่ปรับเปลี่ยนได้เองซึ่งสร้างขึ้นจากสถาปัตยกรรม”ไททันส์”รุ่นก่อนๆ ของ Google ซึ่งเป็นโมดูลหน่วยความจำที่จัดลำดับความสำคัญของข้อมูลตามความ”น่าประหลาดใจ”ของข้อมูล
“ความหวัง”ต่างจากรุ่นก่อนตรงที่”อย่างไรก็ตาม ความหวังคือสถาปัตยกรรมที่เกิดซ้ำที่ปรับเปลี่ยนได้ด้วยตนเอง ซึ่งสามารถใช้ประโยชน์จากระดับการเรียนรู้ในบริบทที่ไร้ขีดจำกัด…”
ทำสิ่งนี้ได้สำเร็จผ่าน Continuum Memory System (CMS) โดยที่ส่วนประกอบหน่วยความจำที่แตกต่างกันจะอัปเดตที่ความถี่ที่แตกต่างกัน สิ่งนี้จะสร้างสเปกตรัมตั้งแต่หน่วยความจำระยะสั้นที่อัปเดตเร็วไปจนถึงการอัพเดตช้าและการจัดเก็บความรู้ระยะยาว
แนวทางแบบเลเยอร์นี้ช่วยให้โมเดลสามารถเรียนรู้วิธีการเรียนรู้เป็นหลัก ซึ่งเป็นก้าวสำคัญที่นอกเหนือไปจากโมเดลคงที่ หมายความว่าหากคุณมีส่วนหนึ่งส่วนใดของสแต็กที่เพิ่มประสิทธิภาพได้เอง มันก็จะขยายขนาดด้วยการประมวลผล และด้วยเหตุนี้จึงมีประสิทธิภาพเหนือกว่าทุกสิ่งที่คุณสามารถทำได้ด้วยมือในที่สุด
คำว่าการแก้ไขด้วยตนเองทำให้เกิดความตื่นเต้น แต่ผู้เชี่ยวชาญบางคนเตือนไม่ให้ตีความมากเกินไป แทนที่จะเขียนซอร์สโค้ดใหม่อย่างแท้จริง โมเดลจะปรับพารามิเตอร์ภายในด้วยความเร็วที่แตกต่างกัน
ไม่มี”เสียงภายใน”ที่ตรวจสอบตัวเองหรือเขียนซอร์สโค้ดของตัวเองใหม่อย่างแท้จริง โดยพื้นฐานแล้วมันเป็นระบบที่ทำจากชิ้นส่วนที่เรียนรู้ด้วยความเร็วที่แตกต่างกัน ซึ่งช่วยให้สามารถบูรณาการข้อเท็จจริงใหม่ๆ ได้โดยไม่ต้องเขียนทับความรู้หลัก
ผลลัพธ์ที่น่าหวังและคำถามที่ค้างคา
เกณฑ์มาตรฐานเบื้องต้นสำหรับสถาปัตยกรรม Hope ตามรายละเอียดในรายงานของ NeurIPS นั้นมีแนวโน้มที่ดีในโมเดลหลายขนาด ทีมวิจัยได้ทดสอบ Hope เวอร์ชันพารามิเตอร์ 340M, 760M และ 1.3B กับโมเดลร่วมสมัย เช่น Transformer++, Retentive Network (RetNet) และ href=”https://arxiv.org/abs/2501.00663″target=”_blank”>Titans
ในงานการสร้างแบบจำลองภาษาและการใช้เหตุผลสามัญสำนึก Hope แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมอย่างต่อเนื่อง ตัวอย่างเช่น โมเดลพารามิเตอร์ 1.3B ที่ได้รับการฝึกด้วยโทเค็น 1 แสนล้านโทเค็น ได้คะแนนมาตรฐานเฉลี่ยที่ 57.23 ซึ่งเหนือกว่าโมเดล Transformer++ (52.25) และ Titans (56.82) ที่เทียบเคียงได้
แสดงให้เห็นความงุนงงที่ต่ำกว่า ซึ่งเป็นการวัดว่าแบบจำลองคาดการณ์ตัวอย่างได้ดีเพียงใด และความแม่นยำที่สูงขึ้นในชุดการทดสอบต่างๆ รวมถึง PIQA, HellaSwag และ BoolQ.
บทความนี้ยังเน้นย้ำถึงความสามารถในการจัดการหน่วยความจำที่เหนือกว่าของ Hope โดยเฉพาะอย่างยิ่งในงาน Needle-In-Haystack (NIAH) ที่มีบริบทยาว ซึ่งแบบจำลองจะต้องค้นหาข้อมูลเฉพาะเจาะจงภายในข้อความจำนวนมาก
ผู้เขียนถือว่าความสำเร็จนี้มาจาก Continuum Memory System (CMS) ซึ่งช่วยให้มีวิธีที่มีประสิทธิภาพและประสิทธิผลมากขึ้นในการจัดการลำดับข้อมูลที่ขยายออกมา
ความสามารถนี้ในการ จัดการหน่วยความจำแบบไดนามิกและอัปเดตการเรียนรู้ตามบริบทคือสิ่งที่ทำให้สถาปัตยกรรมแตกต่างจากโมเดลคงที่อื่นๆ เช่น Transformers มาตรฐาน
แม้จะมีผลลัพธ์เบื้องต้นที่แข็งแกร่งเหล่านี้ ระดับของความสงสัยนั้นก็สมเหตุสมผล โดยมีสาเหตุหลักมาจากข้อมูลเชิงประจักษ์ที่จำกัดซึ่งให้ไว้ในรายงานที่เปิดเผยต่อสาธารณะ
ผู้เขียนทราบในรายงานด้วยว่าเวอร์ชัน NeurIPS ได้รับการ”สรุปอย่างกว้างขวางเพื่อให้พอดีกับขีดจำกัดหน้า”และนำผู้อ่านไปยังเวอร์ชันที่ครอบคลุมมากขึ้นบน arXiv สำหรับ รายละเอียดทั้งหมด
แนวทางนี้น่าตื่นเต้น แต่รายงานของ Googlee ยังมีผลลัพธ์เชิงประจักษ์ค่อนข้างน้อย
สิ่งนี้เน้นให้เห็นช่องว่างที่สำคัญระหว่างคำมั่นสัญญาทางทฤษฎีและประสิทธิภาพที่ตรวจสอบได้ของสถาปัตยกรรมใหม่ เราจะต้องรอผลลัพธ์โดยละเอียด โดยเฉพาะอย่างยิ่งในงานที่มีบริบทยาวซึ่งสถาปัตยกรรมเชิงนวัตกรรมที่คล้ายคลึงกันเคยประสบปัญหาในการปรับขนาดอย่างมีประสิทธิภาพ ก่อนที่จะประกาศว่า Nested Learning เป็นความก้าวหน้าที่แท้จริง