變壓器架構為當今許多功能最強大的大語言模型提供動力,面臨著一個有據可查的挑戰:隨著輸入序列的延長,它的計算需求四邊形。

解決這一效率障礙,IBM研究,與Carnegie Mellon University,Pincerton University,Pincerton University,uninois ulinois ulinois ulinois-Champiaign一起 bamba-9b-v2 。該新發布的開源模型採用了混合設計,將變壓器組件與MAMBA2狀態空間模型(SSM)體系結構結合在一起。

解決變壓器瓶頸

標準變壓器,首先在2017年紙張“注意的是您所需要的,” 將大部分成功歸功於自我關注機制。

這允許模型同時評估所有令牌的相關性。但是,這種全面的比較會導致計算和內存需求,特別是對於存儲注意力狀態的KV緩存,隨著序列長度的增加而倍增。 This “quadratic bottleneck”makes processing very long contexts increasingly slow and costly, an issue highlighted in industry discussions earlier this year regarding the sustainability of scaling AI models.

Hybrid Approach: Merging Transformers and State-Space Models

Bamba incorporates state-space Models(ssms),控制理論的概念適用於深度學習,以減輕變壓器效率低下。所使用的特定變體是 mamba2,由阿爾伯特·gu(cmu)和tri dao(princeton)和tri dao(princeton)。在訓練期間(通過卷積視圖)和推斷期間的恆定時間(通過經常性視圖)。參與基礎SSM工作的IBM研究人員Ankit Gupta指出了他們的傳統作用:“它們是電氣工程的麵包和黃油-信號處理,機器人技術和控制理論。”

BAMBA Architection在戰略上交織了這些有效的MAMBA2層與標準變壓器的注意力相關。目的是利用SSM有效地處理遠程依賴性,同時保留其強大的上下文理解能力的關注。

ibm對 bamba-bamba-nabba-bamba-nake llama 3.1 8b 儘管LLLAMA 3.1較大的培訓數據

評估這些速度收益和潛在的功耗差異和潛在的功耗差異,多樣化的現實世界中的真實情況將是下一步的重要步驟。

IBM及其合作者正在開放模型下發布BAMBA,通過項目的github存儲庫

V2 涉及幾個階段,從最初的2T代幣BAMBA V1開始(2024年聖誕節左右發布)。首先,使用 olmo mix 數據集將訓練擴展到2.5T令牌。然後,使用包括Nemotron-CC數據的自定義混合物對兩個單獨的型號進行了高達3T代幣的培訓,每個模型的學習率時間表不同(恆定與餘弦衰減)。最後,在使用Mergekit加權平均合併之前,在100B高質量的代幣上“退火”了兩個3T模型。

優化推理性能仍然是關鍵重點。該團隊正在積極使用 vllm社區增強對MAMBA2的國家管理的支持,這與標準的KV級別的smith int caching and caching

BAMBA架構不僅代表了研究探索。 IBM已確認,BAMBA項目的關鍵功能將被合併到其即將到來的 ibm Granite 4.0 Enterprise型號,在接下來的幾個月內釋放。這種計劃的集成強調了對混合AI體系結構的不斷增長的興趣,這是一種實用的途徑,以更高效,可擴展的語言模型,能夠處理現代AI應用的越來越長的上下文需求。

Categories: IT Info