新穎的IBM BAMBA混合動力AI模型針對變壓器體系結構的速度限制

變壓器架構為當今許多功能最強大的大語言模型提供動力，面臨著一個有據可查的挑戰:隨著輸入序列的延長，它的計算需求四邊形。

解決這一效率障礙，IBM研究，與Carnegie Mellon University，Pincerton University，Pincerton University，uninois ulinois ulinois ulinois-Champiaign一起 bamba-9b-v2 。該新發布的開源模型採用了混合設計，將變壓器組件與MAMBA2狀態空間模型（SSM）體系結構結合在一起。

解決變壓器瓶頸

標準變壓器，首先在2017年紙張“注意的是您所需要的，” 將大部分成功歸功於自我關注機制。

這允許模型同時評估所有令牌的相關性。但是，這種全面的比較會導致計算和內存需求，特別是對於存儲注意力狀態的KV緩存，隨著序列長度的增加而倍增。 This “quadratic bottleneck”makes processing very long contexts increasingly slow and costly, an issue highlighted in industry discussions earlier this year regarding the sustainability of scaling AI models.

Hybrid Approach: Merging Transformers and State-Space Models

Bamba incorporates state-space Models（ssms），控制理論的概念適用於深度學習，以減輕變壓器效率低下。所使用的特定變體是 mamba2，由阿爾伯特·gu（cmu）和tri dao（princeton）和tri dao（princeton）。在訓練期間（通過卷積視圖）和推斷期間的恆定時間（通過經常性視圖）。參與基礎SSM工作的IBM研究人員Ankit Gupta指出了他們的傳統作用:“它們是電氣工程的麵包和黃油-信號處理，機器人技術和控制理論。”

BAMBA Architection在戰略上交織了這些有效的MAMBA2層與標準變壓器的注意力相關。目的是利用SSM有效地處理遠程依賴性，同時保留其強大的上下文理解能力的關注。

ibm對 bamba-bamba-nabba-bamba-nake llama 3.1 8b 儘管LLLAMA 3.1較大的培訓數據

評估這些速度收益和潛在的功耗差異和潛在的功耗差異，多樣化的現實世界中的真實情況將是下一步的重要步驟。

IBM及其合作者正在開放模型下發布BAMBA，通過項目的github存儲庫。

V2 涉及幾個階段，從最初的2T代幣BAMBA V1開始（2024年聖誕節左右發布）。首先，使用 olmo mix 數據集將訓練擴展到2.5T令牌。然後，使用包括Nemotron-CC數據的自定義混合物對兩個單獨的型號進行了高達3T代幣的培訓，每個模型的學習率時間表不同（恆定與餘弦衰減）。最後，在使用Mergekit加權平均合併之前，在100B高質量的代幣上“退火”了兩個3T模型。

優化推理性能仍然是關鍵重點。該團隊正在積極使用 vllm社區增強對MAMBA2的國家管理的支持，這與標準的KV級別的smith int caching and caching

BAMBA架構不僅代表了研究探索。 IBM已確認，BAMBA項目的關鍵功能將被合併到其即將到來的 ibm Granite 4.0 Enterprise型號，在接下來的幾個月內釋放。這種計劃的集成強調了對混合AI體系結構的不斷增長的興趣，這是一種實用的途徑，以更高效，可擴展的語言模型，能夠處理現代AI應用的越來越長的上下文需求。

新穎的IBM BAMBA混合動力AI模型針對變壓器體系結構的速度限制

Published by All Things Windows on April 29, 2025

解決變壓器瓶頸

Hybrid Approach: Merging Transformers and State-Space Models

IT Info

華盛頓州以$ 9B的稅收加息為亞馬遜，微軟和其他大型科技公司的預算。

IT Info

NVIDIA HOTFIX 576.26目標RTX 50系列遊戲崩潰並顯示錯誤

IT Info

下載Office 2013（官方離線安裝程序）

新穎的IBM BAMBA混合動力AI模型針對變壓器體系結構的速度限制

Published by All Things Windows on April 29, 2025

解決變壓器瓶頸

Hybrid Approach: Merging Transformers and State-Space Models

Related Posts

IT Info

華盛頓州以$ 9B的稅收加息為亞馬遜，微軟和其他大型科技公司的預算。

IT Info

NVIDIA HOTFIX 576.26目標RTX 50系列遊戲崩潰並顯示錯誤

IT Info

下載Office 2013（官方離線安裝程序）