總部位於東京的人工智慧新創公司Sakana AI 的研究人員推出了一種新穎的記憶體優化系統,可以提高基於Transformer 的模型的效率,包括大型語言模型(LLM)。
此方法稱為神經注意力記憶模型(NAMM),可透過GitHub,將記憶體使用量減少高達 75%,同時提高整體效能。透過專注於基本標記並消除冗餘訊息,NAMM 解決了現代人工智慧中資源最密集的挑戰之一:管理長上下文視窗。視窗」這些上下文視窗為輸入序列中的每個標記儲存「鍵值對」(KV 快取)。
隨著視窗長度的增長(現在達到數十萬個令牌)計算成本飆升。先前的解決方案試圖透過手動令牌修剪或啟發式策略來降低此成本,但通常會降低效能。然而,NAMM 使用透過進化優化訓練的神經網路來自動化和完善記憶體管理流程。由Transformers 產生以確定令牌重要性。他們將這些值處理成頻譜圖(音訊和訊號處理中常用的基於頻率的表示),以壓縮和提取注意力模式的關鍵特徵。
這些資訊隨後會通過一個輕量級神經網絡,該神經網絡會為每個標記分配一個分數,決定是否應該保留或丟棄它。演化演算法如何驅動NAMM成功。與傳統的基於梯度的方法(與“記住”或“忘記”等二元決策不相容)不同,進化優化迭代地測試和完善記憶策略,以最大限度地提高下游性能。 >「進化本質上克服了不可微性研究人員解釋說:「我們的記憶體管理操作涉及二元『記住』或『忘記』結果。/strong>
驗證為了評估神經注意力記憶模型(NAMM) 的性能和效率,Sakana AI 對多個行業領先的基準進行了廣泛的測試,這些基準旨在評估長上下文處理和多任務能力,結果強調了NAMM 在減少記憶的同時顯著提高表現的能力。 ,一個專門為衡量模型性能而創建的基準長上下文任務,與全上下文基線模型相比,NAMM 的準確率提高了 11%。這項改進是在記憶體使用量減少 75% 的同時實現的,凸顯了該方法在管理鍵值 (KV) 快取方面的效率。
透過智慧地修剪不太相關的標記,NAMM 允許模型在不犧牲結果的情況下專注於關鍵上下文,使其成為需要擴展輸入的場景的理想選擇,例如文件分析或長格式問與答。極長的序列將模型推向極限——一些超過 200,000 個代幣——NAMM 證明了它們有效擴展的能力。
雖然基準模型難以滿足如此長的輸入的計算需求,但 NAMM 實現了顯著的性能提升,將準確度從 1.05% 提高到 11.00%。
這個結果特別值得注意,因為它展示了NAMM 處理超長上下文的能力,這種能力對於處理科學文獻、法律文件或令牌輸入大小巨大的大型程式碼儲存庫等應用程式越來越重要。 a>, NAMM 比基線提高了 15%。 ChouBun 透過在擴展的日文文字輸入上測試模型來解決現有基準測試中的差距,這些基準測試往往側重於英語和中文。
NAMM 在 ChouBun 上的成功凸顯了它們跨語言的多功能性,並證明了它們在處理非英語輸入方面的穩健性——這是全球人工智慧應用程式的關鍵功能。 NAMM 能夠有效保留特定於上下文的內容,同時丟棄語法冗餘和意義不大的標記,使模型能夠更有效地執行日語長格式摘要和理解等任務。=”664″src=”https://winbuzzer.com/wp-content/uploads/2024/12/Sakana-AI-Neural-Attention-Memory-Models-Benchmarks-official-1024×664.jpg”>來源:Sakana AI
結果總體顯示NAMM 擅長優化記憶體使用而不影響準確度。無論是在需要極長序列的任務上還是在非英語語言環境中進行評估,NAMM 始終優於基準模型,實現了計算效率和改進的結果。
記憶體節省和準確性提高的結合使 NAMM 對於負責處理大量複雜輸入的企業人工智慧系統來說是一個巨大的進步。H2O 和L2,為了效率而犧牲性能。另一方面,NAMM 實現了這兩點。 p>
跨模式應用:超越語言
最令人印象深刻的發現之一是NAMM 將零樣本轉移到其他任務和輸入模式的能力
神經注意力記憶模型(NAMM)最引人注目的方面之一是它們能夠在不同的任務和輸入模式之間無縫傳輸——超越傳統的基於語言的應用程序,這與其他通常需要的記憶優化方法不同。多功能性,這兩個領域都為基於Transformer 的模型帶來了獨特的挑戰。=”>接受語言訓練的NAMM 可以零樣本轉移到其他Transformer 上輸入方式和任務域。 (圖片來源:Sakana AI)
在電腦視覺中,NAMM 使用 Llava Next Video 模型 進行評估, Transformer 設計用於處理長視訊序列。影片本質上包含大量冗餘數據,例如重複的幀或提供很少附加資訊的微小變化。
NAMM 在推理過程中自動識別並丟棄這些冗餘幀,有效壓縮上下文窗口,而不會影響模型解釋視訊內容的能力。
例如,NAMM 保留具有關鍵視覺細節的影格(例如動作變更、物件互動或關鍵事件),同時刪除重複或靜態影格。這提高了處理效率,使模型能夠專注於最相關的視覺元素,從而在保持準確性的同時降低計算成本。於Decision Transformer,一種旨在處理動作、觀察和獎勵序列以優化決策任務的模型 。強化學習任務通常涉及具有不同相關程度的長輸入序列,其中次優或冗餘的操作可能會阻礙表現。
NAMM 透過選擇性地刪除與低效操作和低價值資訊相對應的代幣,同時保留對實現更好結果至關重要的代幣來解決這一挑戰。
例如,在Hopper 和 等任務中>Walker2d(涉及控制連續運動的虛擬代理)NAMM 將性能提高了9% 以上。透過過濾掉次優運動或不必要的細節,決策轉換器實現了更有效率、更有效的學習,將其運算能力集中在最大化任務成功的決策上。 NAMM 在不同領域的適應性。無論是在視覺模型中處理視訊幀,還是在強化學習中優化動作序列,NAMM 都展示了其增強性能、減少資源使用和保持模型準確性的能力,而所有這些都無需重新訓練。
NAMM 幾乎只學會忘記部分內容該論文指出,冗餘視訊幀的組成,而不是描述最終提示的語言標記,強調了NAMM 的適應性。基礎
神經注意力記憶模型(NAMM)的效率和有效性在於其精簡且系統的執行過程,無需人工幹預即可實現精確的標記剪枝。這個過程基於三個核心組件:注意力譜圖、特徵壓縮和自動評分。早期層優先考慮任務描述等「全局」上下文,而較深層則保留「本地」特定於任務的細節。例如,在編碼任務中,NAMM 丟棄了註解和樣板程式碼;在自然語言任務中,他們消除了語法冗餘,同時保留了關鍵內容。
這種自適應標記保留可確保模型在整個處理過程中始終專注於相關信息,從而提高速度和準確度。 Transformers 在每一層計算“注意力值”,以確定上下文視窗中每個標記的相對重要性。 Time–Frequency_representation”>使用 短時傅立葉變換 (STFT) 基於頻率的表示。p> STFT 是一種廣泛使用的訊號處理技術,可隨時間將序列分解為局部頻率分量,從而提供令牌重要性的緊湊而詳細的表示。的數據,從而實現更清晰的數據。 ,同時保留其基本特徵。 EMA 確保表示保持輕量級和可管理性,從而允許NAMM 有效地分析長注意力序列,同時最大限度地減少計算開銷。 >,其中NAMM 使用輕量級模型神經網路分類器評估壓縮的令牌表示並根據其重要性分配分數。分數低於定義閾值的標記將從上下文視窗中刪除,從而有效地「忘記」無用或冗餘的細節。相關的數據。是否應該保留令牌或是否應該保留令牌。
相反,NAMM 使用受自然選擇啟發的迭代進化演算法,隨著時間的推移「變異」和「選擇」最有效的記憶體管理策略,系統不斷進化以優先考慮必要的內容。壓縮和自動修剪,使NAMM 能夠提供重要的記憶體跨各種基於 Transformer 的任務節省成本並提高效能。透過減少運算要求,同時保持或提高準確性,NAMM 為現代AI 模型中的高效記憶體管理樹立了新基準。 h3>
Sakana AI 相信 NAMM 只是一個開始。雖然目前的工作重點是在推理時優化預訓練模型,但未來的研究可能會將 NAMM 整合到訓練過程本身中。這可以使模型能夠本地學習記憶體管理策略,進一步延長上下文視窗的長度並提高跨域的效率。一點可能會為推動未來幾代變壓器的發展提供許多新的機會。設立了新標準人工智慧模型。