大學和亞馬遜研究人員的聯盟已揭露了一種新的AI體系結構,即基於能量的變壓器(EBT)。它旨在為模型提供更類似人類的分析技能。 The approach aims to instill “System 2 thinking”into AI, which often relies on fast, intuitive pattern recognition.
Detailed in a new research paper, the EBT model treats thinking as an iterative optimization process.它從隨機解決方案開始,然後逐漸改進它,以最大程度地減少計算出的“能量”評分。雖然早期結果表明EBT可能更具數據效率,但該方法需要更多的計算。
研究人員提出的項目的核心問題是:“是否可以將這些系統2的思維方法推廣,並開發僅從無人接受學習中學習思考的模型?”這挑戰了當前AI發展的範式。這項工作可在a 項目頁面和”
從直覺到分析:對“系統2″ AI
經常在需要“系統2思考”的任務上步履蹣跚-人類對多步數學或邏輯難題等複雜問題採用的較慢,故意和分析推理。 EBT框架是直接嘗試將這種更深層次的認知過程直接構建到模型體系結構中的嘗試。
在其心中,EBT將預測重新定義為優化難題。標準變壓器採用輸入,並在單個確定性的正向通行證中生成輸出。相比之下,EBT對與給定上下文有關的所有可能預測進行了複雜,高維的“能量格局”。
而不是直接產生答案,模型以隨機的,嘈雜的猜測開始。然後,它使用梯度下降的原理來迭代地完善這種猜測,本質上是在學習的能量景觀上“下坡”,直到它以最低點的穩定為止,或“能量山谷”。
這種最低的能量狀態代表了最合理的最合理的和上下文一致的答案。這種迭代的改進過程是EBT“思考”機制的核心。它允許該模型探索潛在解決方案的空間,而不是鎖定到單個路徑中。
這種方法旨在體現標準模型中通常不存在認知的三個關鍵方面。第一個是動態計算分配。對於一個簡單的問題,該模型可能只需幾個步驟即可找到最小的能量。對於一個複雜的步驟,它可以採取更多步驟,有效地將更多的“思考”花在問題上。
第二個方面是對不確定性進行建模的能力。一個清晰最小的平滑能量景觀表明高確定性。有許多當地山谷的堅固景觀表明該模型是不確定的,因為存在多個合理的答案。這提供了對模型自身信心的更加細微的理解。
第三,該體系結構包括用於預測驗證的內在機制。預測的最終能量得分是內置質量檢查。低分數表示高質量,驗證的答案,而高分標誌著差的分數,而無需單獨的驗證者模型。
通過整合這三個功能,EBT旨在創建一種更強大且可推廣的推理形式。 It moves beyond simple pattern generation to a process of active, iterative problem-solving, marking a significant conceptual step in the quest for more capable artificial intelligence.
How Energy-Based Transformers ‘Think’
The researchers claim this approach yields significant scaling advantages, attributing them to a core principle: verifying a solution is often computationally easier than generating one from scratch.儘管標準變壓器必須學習答案的直接途徑,但EBT學會了為任何給定答案的“正確性”進行評分,這是一個更簡單的任務,似乎可以更有效地概括。他們的論文報告說,EBTS比Advanced Transformer ++基線更有效地縮放,相對於數據而言,縮放率高35%。
提高的數據效率尤其值得注意。它表明,在大規模上,EBT可以在較少的數據進行訓練時獲得與標準變壓器相同的性能。在這個時代,該行業正在接近網絡上可用的高質量培訓數據的限制,開發更多數據效率的體系結構是持續AI進度的關鍵戰略目標。
這種“思考”在推理過程中以兩種關鍵方式表現出來。首先,該模型可以在單個預測上執行更多的迭代完善步驟,從而有效地將更多的計算用於困難問題。其次,它可以生成幾個候選答案,並利用其內部能量功能自我驗證並選擇最低能量的候選功能,表明兼容性最高。這種性能提升最為明顯,這是在分發任務(OOD)任務上-與訓練數據不同的問題。
首席作者Alexi Gladstone指出,“基於能量的變壓器是跨模態變形金剛的第一種方法,與多種軸相對於包括數據,深度,參數,參數,參數,參數,參數,參數,參數,參數,參數,參數,參數,參數,參數,等等。 “通過“思考”推理時,EBT的語言任務表現提高了29%。這表明迭代過程使他們可以在標準模型可能依賴有缺陷的模式匹配的新情況下更加魯棒。
令人鼓舞的表現,但是以顯著的成本
,儘管結果有令人鼓舞的結果,但EBT建築面臨著重大的障礙:計算成本。培訓這些模型目前需要的浮點操作(FLOP)比標準變壓器高3.3至6.6倍。這種大量的開銷不僅是理論上的問題。它構成了採用的重大障礙,可能將EBT的研發限制在擁有豐富的計算資源的最豐富的學術實驗室和大型科技公司。
高絨布要求直接源於EBT設計核心的迭代優化過程。與標準模型的單個前向傳球不同,EBT中的每個完善步驟都涉及復雜的梯度計算,以確定下一個“思想”的方向。這個過程需要計算二階導數(或有效的近似近似值),從根本上講是更密集的。團隊承認這是未來優化工作的關鍵領域,因為使此“思維”過程更便宜對於實際部署至關重要。
此外,最初的實驗是對具有多達8億參數的模型進行的。這是當今最大的AI系統大小的一小部分,該系統通常超過數百億個參數。眾所周知,按數量級來擴展建築是很困難的,通常會揭示出無法預料的挑戰,例如訓練不穩定性或能量景觀,這些挑戰變得過於復雜,無法有效導航。因此,仍然是一個懸而未決的問題,當應用於邊境模型時,在這個較小規模上觀察到的績效好處是否會保持,甚至放大。
最終,EBT為AI社區帶來了基本的權衡:是否有可能增加培訓和推出成本多數倍的人,這可能是更強大,類似人類的推理嗎?答案可能取決於應用程序。對於高風險的科學或分析任務,價格可能是合理的,但是對於通用使用,成本效益分析仍然是一個關鍵且尚未解決的問題。
ai效率
EBT概念的更廣泛的行業推動了更廣泛的行業效率。幾家公司正在從不同角度解決這一挑戰,強調了降低與大規模AI相關的巨大成本的關鍵需求。
這些競爭方法在不同階段達到效率。 Multiverse的Compactifai壓縮靜態模型本身。 Sakana的NAMMS在推理過程中優化了動態KV緩存。 IBM的BAMBA使用混合體系結構來加快序列處理。
相比之下,EBTS從根本上改變了預測機製本身。 EBT不僅要優化完成的模型或其內存,還將“思考”過程直接集成到每個預測的形成方式中,旨在從頭開始更好地概括和推理。
例如,西班牙啟動多元宇宙計算集中在模型壓縮上。它的首席執行官恩里克·利扎索·奧爾莫斯(Enrique Lizaso Olmos)指出:“普遍的智慧是縮水llms是有代價的。多元宇宙正在改變這一點。 “同時,IBM的BAMBA模型針對推理速度。
IBM的項目負責人Raghu Ganti解釋了該策略:“一切都恢復了KV Cache的減少……更多的吞吐量,較低的延遲,更長的上下文長度。 ” Sakana AI的內存優化系統等其他創新也旨在使變形金剛更有效。薩卡納(Sakana)的研究人員發現,“進化固有地克服了我們的內存管理操作的非差異性,這涉及二進制“記住”或“忘記”結果。 ”
這些多樣化的方法顯示了AI發展的轉變。隨著模型的增長,該行業正在競爭尋找可持續的培訓和部署方式。 EBT研究人員認為,他們的工作是這一未來的關鍵部分,得出的結論是“ EBT是一個有希望的新範式來擴展模型的學習和思維能力。 ”