騰訊人工智能實驗室的研究人員推出了一種新的人工智能框架,旨在突破當前大型語言模型的速度限制。
本週在線發表的一篇論文詳細介紹了該系統,該系統稱為 CALM,即連續自回歸語言模型。它直接挑戰了當今大多數生成式人工智能的緩慢、逐個令牌的過程。
CALM 不是一次預測一小部分單詞,而是學習預測代表整個文本塊的單個向量。這種方法可以使 AI 生成更快、更高效,為擴展模型開闢一條新途徑。
代幣暴政:AI 的自回歸瓶頸
現代法學碩士的一個根本弱點是它們對自回歸、逐個代幣生成的依賴。這種順序依賴性是限制人工智能速度和可擴展性的最大瓶頸。
生成一篇長文章需要數千個順序預測步驟,使得該過程的計算成本昂貴且緩慢。這不僅僅是一個學術問題;也是一個問題。這就是為什麼使用強大的模型成本高昂且實時,長格式生成仍然是一個挑戰。
這種效率問題已成為人工智能開發人員的中心戰場。正如 Google Research 之前指出的那樣,“當我們將這些模型部署給更多用戶時,在不犧牲質量的情況下使其速度更快、成本更低是一項嚴峻的挑戰。”
業界一直在探索多種解決方案,從 Google 的推測級聯到新的壓縮技術。現在,騰訊的工作提出了一個更激進的解決方案。
論文提出了新型超高效語言模型的藍圖,並解決了令牌引起的速度瓶頸。
目標是從根本上將預測單元從單一的低信息令牌更改為更豐富的東西。
新範式:預測向量而不是令牌
在直接挑戰中針對生成式人工智能的現狀,CALM 完全重新構建了預測任務。研究人員提出了 LLM 的新縮放軸。
“我們認為,克服這一瓶頸需要 LLM 縮放的新設計軸:增加每個生成步驟的語義帶寬,”他們在論文中寫道。
通過增加這種“語義帶寬”,模型可以在單個步驟中處理更多信息。 CALM 通過創新的兩階段流程實現了這一目標,該流程在連續而非離散的空間中運行。
CALM 設計的核心是高保真自動編碼器。該組件學習將 K 個標記(例如四個標記)壓縮為一個密集的連續向量。
至關重要的是,它可以根據該向量重建原始標記,準確率超過 99.9%。然後,一個單獨的語言模型在這個新的向量空間中執行自回歸預測。
根據項目的官方文檔,“CALM 不是一次預測一個離散標記,而是學習預測代表 K 個標記的整個塊的單個連續向量。”
這將生成步驟數減少了 K 倍,帶來顯著的效率提升。
無似然工具包:CALM 如何學習和衡量成功
從離散標記遷移到連續向量帶來了一個重大挑戰:模型無法再使用標準 softmax 層計算所有可能結果的顯式概率分佈。
這使得依賴於計算似然的傳統訓練和評估方法不再適用。為了解決這個問題,騰訊團隊開發了一個全面的、無似然性的框架。
在訓練方面,CALM 採用了基於能量的訓練方法,該方法使用嚴格正確的評分規則來指導模型,而不需要計算概率。
在評估方面,研究人員引入了一種名為 BrierLM 的新穎指標。 BrierLM 擺脫了困惑度等傳統指標,源自 Brier 分數,這是一種概率預測工具。
它可以通過檢查預測與現實的吻合程度來對模型功能進行基於樣本的公平比較,這種方法非常適合可能性難以處理的模型。
AI 擴展和效率競賽的新軸
這一新軸的實際影響架構是一種卓越的性能與計算權衡。
與強基線相比,CALM 模型將訓練計算要求降低了 44%,推理計算要求降低了 33%。這表明,擴展每個步驟的語義帶寬是提高計算效率的強大新槓桿。
這項工作使 CALM 成為全行業範圍內構建更快、更便宜、更易於訪問的 AI 競賽的重要競爭者。
Google 一直在通過推測級聯和嵌套學習等方法解決 AI 速度問題。其他初創公司(例如 Inception)正在其“Mercury Coder”中探索完全不同的架構,例如基於擴散的 LLM,以擺脫自回歸的“結構瓶頸”。
總的來說,這些不同的方法凸顯了人工智能開發的轉變。該行業正在從純粹關注規模轉向更可持續地追求更智能、更經濟可行的人工智能。 CALM 基於矢量的方法在這方面提供了一條新的前進道路。