今日で最も有能な大手言語モデルの多くを動力とするトランスアーキテクチャは、十分に文書化された課題に直面しています。入力シーケンスがより長くなるにつれて、その計算需要は二次的に成長します。 href=”https://research.ibm.com/blog/bamba-sssm-transformer-model”ターゲット=”_ blank”> bamba-9b-v2 。この新しくリリースされたオープンソースモデルは、トランスコンポーネントとMAMBA2状態空間モデル(SSM)アーキテクチャと組み合わせたハイブリッド設計を採用しています。 href=”https://arxiv.org/abs/1706.03762″ターゲット=”_ blank”>「注意が必要です」 src=”https://winbuzzer.com/wp-content/uploads/2024/12/ai-artificial-intelligence-abstract.webp.webp”>
これにより、すべてのトケンのリバージャをシーケンスに同時に評価できます。ただし、このすべての比較により、特にKVキャッシュが注意状態を保存するために、計算とメモリのニーズが得られ、シーケンス長の増加とともに二次的にスケーリングします。この「二次ボトルネック」により、処理が非常に長いコンテキストをますます遅くてコストがかかります。これは、AIモデルのスケーリングの持続可能性に関して今年初めの業界の議論で強調された問題を強調しています。 href=”https://en.wikipedia.org/wiki/mamba_(deep_learning_architecture)”target=”_ blank”>ステートスペースモデル(ssms)、コントロール理論ディープラーニングに適応、トランスの非効率性を緩和します。使用される特定のバリアントは、 mamba2です。トレーニング(畳み込みビューを介して)および推論中のトークンあたりの一定の時間(再発ビューを介して)。基礎SSMの仕事に関与するIBMの研究者であるAnkit Guptaは、彼らの伝統的な役割を指摘しました。「彼らは電気工学のパンとバターです-信号処理、ロボット工学、制御理論。」目標は、強力なコンテキスト理解機能のために注意を維持しながら長距離依存関係を効率的に処理するためにSSMSを活用することです。バージョン(サイズを18GBから9GBに削減)は有望です。 3兆個のトークンで訓練されたモデルは、メタの
これらの速度の利点と潜在的な消費の違いが多様な現実世界のシナリオにわたって評価されます。
IBM and its collaborators are releasing Bamba under an open model, providing access to model weights, training details, and code via the Hugging Face Bamba collection and the プロジェクトのgithubリポジトリ。 V2 は、最初の2TトークンBamba V1(2024年のクリスマス中にリリース)から始まるいくつかの段階に関係していました。まず、トレーニングは、 olmoミックスデータセットを使用して2.5tトークンに拡張されました。次に、Nemotron-CCデータを含むカスタムミックスを使用して、それぞれ異なる学習レートスケジュール(一定対Cosine減衰)を使用して、最大3Tトークンまで2つの別々のモデルをトレーニングしました。最後に、Mergekitの加重平均化を使用してマージされる前に、両方の3Tモデルが100B高品質のトークンで「アニール」されました。
推論パフォーマンスの最適化は依然として重要な焦点です。チームは、と積極的に協力しています。 「SSMは、オーダーメイドの州管理が必要なため、SSMをサポートするのが困難です。」将来の改善により、チャンクされたPrefillとより高速なカスタムデコードカーネルをターゲットにし、Bambaの速度の優位性が従来の変圧器よりも4〜5倍に増加する可能性があります。チームは、特に長いコンテキストのスケーリングと数学的パフォーマンスの改善のテストに貢献するようにオープンソースコミュニティを招待します。
Bambaアーキテクチャは、単なる研究探査以上のものを表しています。 IBMは、Bambaプロジェクトの重要な機能が今後の