大学とアマゾンの研究者のコンソーシアムは、新しいAIアーキテクチャであるエネルギーベースのトランス(EBT)を発表しました。モデルに、より人間のような分析スキルを装備するように設計されています。このアプローチの目的は、「システム2の思考」をAIに浸透させることを目的としています。これは、しばしば高速で直感的なパターン認識に依存しています。ランダムソリューションから始まり、計算された「エネルギー」スコアを最小限に抑えるために徐々に改善します。早期の結果は、EBTがよりデータ効率が高くなる可能性があることを示唆していますが、この方法ではより多くの計算が必要です。
研究者が提起するプロジェクトの中心的な質問は、「これらのシステム2の思考アプローチを一般化し、監視されていない学習のみから考えることを学ぶモデルを開発することは可能ですか?」これは、現在のAI開発のパラダイムに挑戦します。作業は、a プロジェクトページで入手できます。 src=”data:image/svg+xml; nitro-empty-id=mty0mdoxmty4-1; base64、phn2zyb2awv3qm94psiwidagmti4mca0mj eiihdpzhropsixmjgwiibozwlnahq9ijqymsigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
直観から分析まで:「システム2」AIの探求
EBTアーキテクチャは、支配的なAIパラダイムからの根本的なシフトを表しています。標準変圧器を含むほとんどの現在のモデルは、ノーベル賞を受賞したダニエルカネマンが「システム1の考え方」と呼んでいます。画像をほぼ瞬時に認識します。
これらのモデルは、「システム2の思考」を必要とするタスクを必要とするタスク、つまり、多段階の数学や論理パズルなどの複雑な問題に採用される、より遅く、意図的で、分析的な推論を必要とするタスクを妨げることがよくあります。 EBTフレームワークは、このより深い認知プロセスをモデルのアーキテクチャに直接構築する直接的な試みです。標準の変圧器は、入力を取り、1つの決定論的フォワードパスで出力を生成します。対照的に、EBTは、特定のコンテキストに関連するすべての可能な予測に対して、複雑で高次元の「エネルギー景観」を学習します。
答えを直接生成する代わりに、モデルはランダムで騒々しい推測で始まります。次に、勾配降下の原理を使用して、この推測を反復的に改良し、本質的に学習したエネルギーの景観を下り坂で、最低のポイントに落ち着くまで、または「エネルギー谷」に落ち着きます。この反復改良プロセスは、EBTの「思考」メカニズムの中核です。これにより、モデルは単一のパスにロックされるのではなく、潜在的なソリューションのスペースを探索できます。 1つ目は動的計算割り当てです。簡単な問題の場合、モデルはほんの数ステップでエネルギーの最小値を見つける可能性があります。複雑なものの場合、さらに多くのステップを踏み、問題にもっと「思考」を費やすことができます。
2番目のファセットは、不確実性をモデル化する能力です。 1つの明確な最小値を備えた滑らかなエネルギー景観は、高い確実性を示しています。複数のもっともらしい答えが存在するため、多くの地元の谷を持つ頑丈な風景は、モデルが不確実であることを示唆しています。これは、モデル自身の自信をより微妙に理解することを提供します。
第三に、アーキテクチャには予測検証のための本質的なメカニズムが含まれています。予測の最終エネルギースコアは、組み込みの品質チェックとして機能します。低いスコアは、高品質で検証された回答を示しますが、高スコアはすべて別の検証モデルを必要とせずに貧弱な回答を示します。
これらの3つの機能を統合することにより、EBTはより堅牢で一般化可能な推論形式を作成することを目指しています。単純なパターン生成を超えて、より有能な人工知能の探求における重要な概念的なステップをマークするアクティブで反復的な問題解決のプロセスに移行します。標準的な変圧器は答えへの直接的なパスを学習する必要がありますが、EBTは、特定の答えの「正確性」を獲得することを学びます。これは、より効果的に一般化するように見えるより簡単なタスクです。彼らの論文は、EBTSが高度な変圧器++ベースラインよりも効率的にスケーリングし、データに関して最大35%高いスケーリングレートを示すと報告しています。
改善されたデータ効率は特に注目に値します。大規模な場合、EBTは標準変圧器と同じパフォーマンスを達成し、データを大幅に少ないデータでトレーニングできることを示唆しています。業界がウェブ上で利用可能な高品質のトレーニングデータの限界に近づいている時代では、よりデータ効率の良いアーキテクチャを開発することは、継続的なAIの進歩の重要な戦略的目標です。第一に、モデルは単一の予測でより反復的な改良ステップを実行し、困難な問題により多くの計算を効果的に捧げることができます。第二に、いくつかの候補者の回答を生成し、その内部エネルギー関数を使用して自己検証し、最も低いエネルギーを持つものを選択することができ、最高の互換性を示します。このパフォーマンスブーストは、分散除外(OOD)タスク(トレーニングデータとは異なる問題)で最も顕著です。推論で長く「考える」ことにより、EBTは言語タスクのパフォーマンスを最大29%改善しました。これは、反復プロセスにより、標準モデルが欠陥のあるパターンマッチングに依存する可能性のある新しい状況で、より堅牢に推論できることを示唆しています。これらのモデルのトレーニングには、現在、標準的な変圧器よりも3.3〜6.6倍のフローティングポイント操作(FLOPS)が必要です。この実質的なオーバーヘッドは、単なる理論的な懸念ではありません。これは、採用に対する重要な障壁を提起し、EBTの研究開発を潜在的に潜在的に制限し、最も資金提供された学術ラボと膨大な計算リソースを備えた大規模なハイテク企業のみに制限します。標準モデルのシングルフォワードパスとは異なり、EBTの各洗練ステップには、次の「思考」の方向を決定するための複雑な勾配計算が含まれます。このプロセスは、2次導関数(またはヘシアンベクトル製品のような効率的な近似)を計算する必要があるため、基本的に集中的です。チームは、これが将来の最適化作業の重要な領域であることを認めています。これは、この「思考」プロセスが実用的な展開に不可欠であるため、最大8億パラメーターのモデルで最初の実験が実施されました。これは、今日で最大のAIシステムのサイズのほんの一部であり、多くの場合、数億のパラメーターを超えています。アーキテクチャを桁違いに拡大することは難しいことで有名です。しばしば、効果的にナビゲートするには複雑すぎる不安定性やエネルギーの風景などの予期せぬ課題を明らかにします。したがって、この小規模で観察されたパフォーマンスの利点がフロンティアモデルに適用されると、パフォーマンスの利点が保持されるか、さらに増幅されるかどうかは未解決の問題のままです。
最終的に、EBTはAIコミュニティの基本的なトレードオフを提示します。答えはおそらくアプリケーションに依存します。ハイステークスの科学的または分析的タスクの場合、価格は正当化される場合がありますが、一般的な使用のために、コストベネフィット分析は重要かつ未解決の問題のままです。いくつかの企業は、さまざまな角度からこの課題に取り組んでおり、大規模なAIに関連する計り知れないコストを削減する重要なニーズを強調しています。
これらの競合する方法は、さまざまな段階での効率に取り組んでいます。 MultiverseのCompactifaiは、静的モデル自体を圧縮します。 SakanaのNAMMSは、推論中に動的なKVキャッシュを最適化します。 IBMのBambaは、ハイブリッドアーキテクチャを使用してシーケンス処理を高速化します。
対照的に、EBTは予測メカニズム自体を根本的に変更します。 EBTSは、完成したモデルまたはそのメモリを最適化するだけでなく、「思考」プロセスを各予測の形成方法に直接統合し、より良い一般化と推論を目指しています。たとえば、スペインの起動マルチバースコンピューティングはモデル圧縮に焦点を当てています。 CEOのエンリケ・リザソ・オルモスは、「一般的な知恵は、縮小LLMが犠牲を払うということです。多元宇宙はそれを変えています。」一方、IBMのBambaモデルは推論速度をターゲットにします。
IBMのプロジェクトリードラグーガンティは、「すべてがKVキャッシュの削減に戻ってきます…より多くのスループット、レイテンシ、より長いコンテキストの長さに戻ります。」 Sakana AIのメモリ最適化システムのような他のイノベーションも、トランスフォーマーをより効率的にすることを目指しています。 Sakanaの研究者は、「進化は、バイナリの「覚えている」または「忘れる」結果を含む、メモリ管理操作の非分化性を本質的に克服することを発見しました。
これらのさまざまなアプローチは、AI開発の変化を示しています。モデルが成長するにつれて、業界は、それらを訓練して展開するための持続可能な方法を見つけるために競争しています。 EBTの研究者は、自分の仕事がこの将来の重要な部分であると考えており、「EBTはモデルの学習能力と思考能力の両方を拡大するための有望な新しいパラダイムである」と結論付けています。