2025 年 11 月 7 日、Google Research は、AI モデルにおける壊滅的な忘却を解決するために設計された、入れ子学習と呼ばれる新しい機械学習パラダイムを導入しました。

この長年の問題により、モデルは新しい情報を学習するときに古い知識を消去します。概念実証として、チームは、継続的に学習して適応できる自己修正アーキテクチャ「Hope」を明らかにしました。

新しい手法では、AI を単一のプログラムとしてではなく、さまざまな速度で更新される入れ子になった学習プロセスのシステムとして扱います。このアプローチは人間の記憶の仕組みを模倣し、ゼロから継続的に再トレーニングすることなく時間の経過とともに改善できる、より動的で効率的な AI システムを作成することを目的としています。

AI の記憶喪失の克服: 壊滅的な忘却の課題

記憶の根本的な弱点多くの高度な AI モデルは、逐次的に学習することができません。ニューラル ネットワークが新しいデータでトレーニングされると、以前に習得した情報を突然かつ劇的に忘れてしまうことがよくあります。

壊滅的な忘却または壊滅的な干渉として知られるこの現象は、1980 年代後半に研究者によって初めて特定されて以来、新しい経験によって真に進化できる AI を作成する上での大きな障壁となってきました。

この問題は、認知科学者が と呼ぶものに起因しています。 href=”https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2013.00504/full”target=”_blank”>「安定性と可塑性のジレンマ」。 効果的な学習システムは、新しい知識を獲得するのに十分な可塑性を備えている必要がありますが、同時に新しい知識が既存の記憶を上書きしないように十分に安定している必要があります。

ほとんどの標準的なニューラル ネットワーク、特に逆伝播を使用するニューラル ネットワークは、可塑性が高くなります。内部パラメータまたは重みは、新しいタスクのエラーを最小限に抑えるように調整されます。

ただし、これらのネットワークは分散表現を使用しているため、知識は広範な共有重みにわたって保存されます。新しいタスクのためにこれらの重みを更新すると、古い情報を思い出すために必要なパターンが必然的に崩壊します。

壊滅的な忘却は、混乱が増大したときに、移動すべきではないパラメータが突然大きな勾配によって揺さぶられることで発生します。 このプロセスは、古いデータの上に新しいデータを効果的に重ね合わせ、元の学習が大幅に、多くの場合完全に失われることになります。

この制限は、通常、スキルや知識が突然消去されるのではなく、徐々に忘れていく人間の学習とは大きく対照的です。

Google の発表は、人が新しい長期記憶を形成できない神経学的状態である前向性健忘症に強力に類似しています。現在の大規模言語モデル (LLM) も同様に制限されています。彼らの知識は、膨大なトレーニング前のデータと、コンテキスト ウィンドウに供給される即時情報に限定されています。

彼らは、新しい経験をコア知識ベースに統合することができません。 Google Research のブログでは、「継続的な学習と自己改善に関しては、人間の脳が最も優れた標準です。」と述べられています。

このハードルは、理論上の不便さだけではありません。これは、AI が新しい情報が常に存在する動的な現実世界の環境に適応することを妨げる重大な実際的な障害です。

入れ子学習: アーキテクチャと最適化を統合する新しいパラダイム

AI の最も根強い欠陥の 1 つに対処するために、Google の研究者は、学習モデルの構造そのものを再考するフレームワークを提案しました。

入れ子学習 (NL) と呼ばれる新しいパラダイムは、レイヤーを積み重ねるという従来の考え方を超えたものになります。代わりに、モデルをモノリシックなエンティティとしてではなく、同時に実行される相互接続されたマルチレベルの最適化問題の集合として扱います。

このアプローチは、モデルのアーキテクチャとそのトレーニング アルゴリズムを根本的に統合し、それらを同じコア プロセスの異なる「レベル」として見ます。

ネストされた学習フレームワーク内の各レベルには、学習元となる情報の特定のストリームである、独自の明確な「コンテキスト フロー」があります。独自の頻度で更新されます。この設計は、脳波に似て、さまざまな神経回路が異なる速度で動作する、人間の脳内で観察されるマルチタイムスケールの処理からインスピレーションを得ています。

研究論文にあるように、「NL は、既存の深層学習手法が独自のコンテキスト フローを圧縮することでデータから学習することを明らかにし、大規模なモデルでコンテキスト内学習がどのように現れるかを説明しています。」

これにより、モデルの一部が新しいものに迅速に適応できる、よりきめ細かく効率的な学習形式が可能になります。

入れ子学習の中心となる洞察は、標準的な機械学習コンポーネントを連想記憶の形式として再構成することです。この論文は、バックプロパゲーションのプロセス自体が、データ ポイントをその「ローカル サプライズ シグナル」(誤差または勾配)にマッピングすることを学習する連想メモリとしてモデル化できることを示しています。

このシグナルは、データがどれほど予想外であるかを定量化します。さらに、このフレームワークは、Adam や Momentum を備えた SGD などの一般的なオプティマイザーを「ディープ オプティマイザー」として再解釈します。

これらは、単なる静的な数式ではなく、基本的に過去の勾配の履歴を圧縮して将来の更新を通知することを学習するメモリ モジュールです。

実装は斬新ですが、自己参照学習の概念は AI 研究に深く根ざしています。 Google チーム自身も、ユルゲン シュミットフーバーによるニューラル ネットワークに関する 1992 年の論文など、1990 年代初頭の基礎的な研究を引用しています。この論文は理論的に独自の学習ルールを変更できる可能性があります。

ネストされた学習は、これらの長年の理論的野望を最終的に実現するための実践的で一貫したフレームワークを提供し、学習方法を真に学習できるモデルへの明確な道筋を提供することを目的としています。

Hope on the Horizon: 学習方法を学習する自己修正型 AI

人間の脳が記憶を処理する方法からインスピレーションを得た「Hope」アーキテクチャは、最初のアーキテクチャとして機能します。入れ子学習パラダイムの概念実証。

Hope は、Google の初期の「Titans」アーキテクチャのバリアントとして構築された自己修正システムであり、情報の「驚き」に基づいて情報に優先順位を付けるメモリ モジュールです。

前任者とは異なり、「Hope は、無制限のレベルのインコンテキスト学習を活用できる自己修正再帰アーキテクチャです…」

これは、さまざまなメモリ コンポーネントがさまざまな頻度で更新される連続メモリ システム (CMS) を通じて実現されます。これにより、更新の速い短期記憶から更新の遅い長期の知識記憶までのスペクトルが作成されます。

この階層化されたアプローチにより、モデルは基本的に学習方法を学習できるようになり、静的モデルを大きく超えることができます。これは、スタックの一部を自動的に最適化できれば、コンピューティングに応じて拡張できるため、最終的には手動で実行できるすべてのパフォーマンスを上回ることを意味します。

自己変更という用語は興奮を呼び起こしましたが、一部の専門家は拡大解釈に対して警告しています。ソース コードを文字通り書き換えるのではなく、モデルは内部パラメーターをさまざまな速度で調整します。

モデル自体を検査したり、文字通り自身のソース コードを書き換えたりする「内なる声」はありません。これは基本的に、異なる速度で学習するパーツで構成されるシステムです。これにより、中核となる知識を上書きすることなく、新しい事実を統合することができます。

期待できる結果と残る疑問

NeurIPS の論文で詳しく説明されている Hope アーキテクチャの初期ベンチマークは、いくつかのモデル サイズにわたって有望です。研究チームは、Hope の 340M、760M、および 1.3B パラメータ バージョンを、Transformer++Retentive Network (RetNet) などの最新のモデルに対してテストしました。 href=”https://arxiv.org/abs/2501.00663″target=”_blank”>タイタンズ.

言語モデリングと常識推論タスクにおいて、ホープは一貫して優れたパフォーマンスを示しました。たとえば、1,000 億のトークンでトレーニングされた 1.3B パラメータ モデルは、平均ベンチマーク スコア 57.23 を達成し、同等の Transformer++ (52.25) モデルや Titans (56.82) モデルを上回りました。

モデルがどの程度うまく予測するかを示す尺度である パープレキシティ が低いことが示されました。 PIQAHellaSwagBoolQ.

この論文では、特にモデルが大量のテキストの中から特定の情報を見つけなければならないロングコンテキストのニードル・イン・ヘイスタック (NIAH) タスクにおいて、Hope の優れたメモリ管理機能も強調しています。

著者らは、この成功は、拡張された情報シーケンスをより効率的かつ効果的に処理できる方法を可能にする連続メモリ システム (CMS) のおかげであると考えています。

メモリを動的に管理し、コンテキストに基づいて学習を更新するこの機能が、このアーキテクチャを標準の Transformers のようなより静的なモデルとは区別するものです。

これらの強力な初期結果にもかかわらず、主に公開されている論文で提供されている経験的データが限られているため、ある程度の懐疑論は正当化されます。

著者らは論文自体で、NeurIPS バージョンは「ページ制限に合わせて広範に要約されている」と述べており、読者をより包括的なバージョンに誘導しています。詳細については、arXiv を参照してください。 

このアプローチは興味深いものですが、Googlee の論文では実証結果についても非常に不足しています。

これは、理論上の約束と新しいアーキテクチャの検証可能なパフォーマンスとの間に重大なギャップがあることを浮き彫りにしています。ネストされた学習が真のブレークスルーであると宣言する前に、特に同様の革新的なアーキテクチャがこれまで効果的に拡張するのに苦労していた長いコンテキストのタスクに関して、詳細な結果を待つ必要があります。

Categories: IT Info