Google 研究中心於 2025 年 11 月 7 日推出了一種名為“嵌套學習”的新機器學習範式,旨在解決人工智能模型中的災難性遺忘問題。

這個長期存在的問題會導致模型在學習新信息時擦除舊知識。作為概念驗證,該團隊展示了“Hope”,這是一種可以不斷學習和適應的自我修改架構。

新方法不將人工智能視為單個程序,而是將其視為以不同速率更新的嵌套學習過程系統。這種方法模仿人類記憶的工作原理,旨在創建更加動態和高效的人工智能係統,這些系統可以隨著時間的推移而改進,而無需從頭開始不斷地重新訓練。

克服人工智能的健忘症:災難性遺忘的挑戰

許多人的根本弱點先進的人工智能模型的缺點是它們無法順序學習。當神經網絡接受新數據的訓練時,它經常會突然徹底忘記以前掌握的信息。

這種被稱為災難性遺忘或災難性干擾的現象,自 20 世紀 80 年代末首次被研究人員發現以來,一直是創造能夠真正隨著新體驗而進化的人工智能的主要障礙。

這個問題源於認知科學家所謂的“穩定性-可塑性困境。” 有效的學習系統必須具有足夠的可塑性以獲取新知識,但也必須足夠穩定以防止新知識覆蓋現有記憶。

大多數標準神經網絡,特別是那些使用反向傳播的神經網絡,都具有高度可塑性。它們的內部參數或權重經過調整,以最大程度地減少新任務的錯誤。

但是,因為這些網絡使用分佈式表示,其中知識存儲在各種共享權重中。為新任務更新這些權重不可避免地會破壞回憶舊信息所需的模式。

當不應該移動的參數在困惑度上升時因突然的大梯度而動搖時,就會發生災難性遺忘。 這個過程有效地將新數據疊加在舊數據之上,導致原始學習的急劇且常常完全喪失。

這種限制與人類學習形成鮮明對比,人類學習通常涉及逐漸遺忘而不是突然消除技能或知識。

Google 的聲明與順行性遺忘症進行了強有力的類比,順行性遺忘症是一種人無法形成新的長期記憶的神經系統疾病。當前的大型語言模型(LLM)同樣受到限制;他們的知識僅限於大量的預訓練數據和輸入上下文窗口的即時信息。

他們無法將新經驗整合到核心知識庫中。正如穀歌研究博客指出的那樣,“當談到持續學習和自我完善時,人腦是黃金標準。”

這個障礙不僅僅是理論上的不便;它還存在於實踐中。這是阻止人工智能適應新信息不斷變化的動態現實環境的重大實際障礙。

嵌套學習:統一架構和優化的新範式

為了解決人工智能最持久的缺陷之一,Google 研究人員提出了一個重新構想學習模型結構的框架。

這種稱為嵌套學習 (NL) 的新範式超越了傳統的堆棧視圖層。相反,它並不將模型視為一個整體實體,而是將其視為同時運行的相互關聯的多級優化問題的集合。

這種方法從根本上統一了模型的架構及其訓練算法,將它們視為同一核心流程的不同“級別”。

嵌套學習框架中的每個級別都有其獨特的“上下文流”,即它從中學習的特定信息流。它以自己的頻率更新。這種設計的靈感來自於人腦中觀察到的多時間尺度處理,其中不同的神經迴路以不同的速度運行,類似於腦電波。

正如研究論文所述,“NL 揭示了現有的深度學習方法通過壓縮自己的上下文流來從數據中學習,並解釋了上下文學習如何在大型模型中出現。”

這允許更細粒度和更有效的學習形式,其中模型的某些部分可以快速適應新信息,而其他部分則可以更好地鞏固知識。

嵌套學習的核心見解是將標準機器學習組件重新構建為聯想記憶的形式。該論文證明,反向傳播過程本身可以建模為聯想記憶,它學習將數據點映射到其“局部意外信號”,即誤差或梯度。

該信號量化了數據的意外程度。更進一步,該框架將常見的優化器(例如 Adam 或帶有 Momentum 的 SGD)重新解釋為“深度優化器”。

這些本質上是記憶模塊,學習壓縮過去梯度的歷史以通知未來的更新,而不僅僅是靜態數學公式。

雖然實現很新穎,但自參照學習的概念在人工智能研究中有著深厚的根基。 Google 團隊本身引用了 20 世紀 90 年代初的基礎工作,包括 Jürgen Schmidhuber 於 1992 年發表的一篇關於神經網絡的論文,理論上可以修改自己的學習規則。

嵌套學習旨在提供一個實用且連貫的框架,最終實現這些長期的理論抱負,為能夠真正學習如何學習的模型開闢一條清晰的道路。

地平線上的希望:一種學習如何學習的自我修改人工智能

從人腦處理記憶的方式中汲取靈感,“Hope”架構成為該模型的第一個概念驗證。嵌套學習範式。

Hope 是一種自我修改系統,是 Google 早期“泰坦”架構的變體,該架構是一種內存模塊,根據信息的“令人驚訝”程度對信息進行優先級排序。

與它的前身不同的是,“然而,Hope 是一種自我修改的循環架構,可以利用無限級別的上下文學習……”

它通過連續記憶系統實現這一點(CMS),其中不同的內存組件以不同的頻率更新。這創建了從快速更新的短期記憶到緩慢更新的長期知識存儲的範圍。

這種分層方法允許模型本質上學習如何學習,這是超越靜態模型的重要一步。這意味著,如果您可以讓堆棧的任何部分進行自我優化,那麼它將通過計算進行擴展,從而最終勝過您可以手動完成的任何操作。

“自我修改”一詞引起了人們的興奮,但一些專家警告不要過度解釋。該模型不是從字面上重寫其源代碼,而是以不同的速度調整其內部參數。

沒有“內部聲音”檢查自身或從字面上重寫自己的源代碼。它基本上是一個由以不同速度學習的部件組成的系統。這使得它能夠在不覆蓋核心知識的情況下整合新的事實。

有希望的結果和揮之不去的問題

Hope 架構的初始基準(如 NeurIPS 論文中詳細介紹的那樣)在多種模型大小上都是有希望的。研究團隊針對 Transformer++保持網絡 (RetNet)、和Titans

在語言建模和常識推理任務中,Hope 始終表現出強勁的表現。例如,在 1000 億個代幣上進行訓練的 1.3B 參數模型獲得了 57.23 的平均基準分數,優於類似的 Transformer++ (52.25) 和 Titans (56.82) 模型。

它顯示出較低的困惑度,這是衡量模型預測問題的能力的指標。樣本,並在一系列測試中獲得更高的準確度,包括 PIQAHellaSwagBoolQ

論文還強調了 Hope 卓越的內存管理能力,特別是在長上下文 Needle-In-Haystack (NIAH) 任務中,模型必須在大量文本中找到特定的信息。

作者將這一成功歸功於連續記憶系統 (CMS),它允許以更高效和更有效的方式處理擴展的信息序列。

這種動態管理內存和基於上下文更新學習的能力使該架構與標準 Transformer 等靜態模型區分開來。

儘管初步結果很好,但一定程度的懷疑是有道理的,主要是由於公開論文中提供的經驗數據有限。

作者在論文本身中指出,NeurIPS 版本“進行了廣泛總結以適合頁面” limit”,並引導讀者訪問 arXiv 上更全面的版本以獲取完整詳細信息。 

這種方法令人興奮,但 Googlee 的論文在實證結果方面也相當缺乏。

這凸顯了新架構的理論承諾與可驗證性能之間的關鍵差距。在宣布嵌套學習是真正的突破之前,我們必須等待詳細的結果,尤其是在類似的創新架構之前難以有效擴展的長上下文任務上。

Categories: IT Info