Google推出了“投機級聯"，以使LLM推理更快，更便宜

Google的研究人員開發了一種稱為“投機級聯”的新技術 target=”_blank”>company blog post this week, the hybrid method tackles the immense computational cost and slowness of AI inference—a critical challenge for the industry.

The new 方法結合了兩種現有加速技術中最好的“ cascades”和“投機解碼”，同時避免了它們的關鍵弱點。

通過使用靈活的，動態的“延遲規則”，該系統可通過不犧牲質量而產生響應，從而使用靈活的，動態的“延遲規則”。實驗表明該方法為常見的AI任務提供了重大加速。

AI推理的高成本

為高級AI提供動力的高級AI以陡峭的價格出現。眾所周知，生成一種稱為推理的響應的過程在較慢且計算上很昂貴。

隨著LLMS越來越多地集成到日常應用中，優化其性能是實際的必要性。正如Google Research指出的那樣，“當我們將這些模型部署給更多的用戶時，使它們更快，更便宜而不犧牲質量是一個關鍵的挑戰。”

這個效率問題已成為AI開發人員的中心戰場，導致了兩種主要的加速策略，每種策略都具有重要的缺陷。更大，更昂貴的一個。目的是便宜地處理查詢，僅在真正複雜的任務中產生大型LLM的高成本。

雖然這種方法可以降低計算成本，但它會遭受Google團隊所謂的“順序待機式瓶頸。但是，如果不是這樣，時間就會浪費時間等待它完成，然後從頭開始大型模型的過程。這種基本的瓶頸可以使過程緩慢且效率低下。

是第二個主要方法，“投機解碼”，通過使用一個小的“起草者”模型來預測並行的單詞順序優先級，然後通過大型模型確定了該模型，可以迅速驗證該方法。該方法可以自行驗證。但是，其剛性是其最大的弱點。

系統的嚴格驗證規則意味著它可以拒絕單個不匹配的令牌的整個草稿，即使其餘答案是完全有效的。 Google的研究人員用一個簡單的例子說明了這一點:查詢“誰是Buzz Aldrin? “小型模型可能草擬了“ Buzz Aldrin是美國人……”，而大型模型則更喜歡“ Edwin‘Buzz’Aldrin…”。

，因為最初的標記（“嗡嗡聲”）與大型模型的首選標記（“ buzz”）不符合整個草稿（“ Edwin”），整個草稿都會立即拋棄，而不是最初的型號，雖然是一個最初的速度優勢。回答，符合大型模型的逐個拒絕的要求。”這不會產生計算節省，並突出了該方法固有的浪費。

投機性級聯:一種“兩全其美的方法”方法

Google的新方法，投機性的級聯反應，提供了一種合併這兩個想法的混合解決方案。它使用一個小型模型來起草響應，但用更聰明，更靈活的“延期規則”代替了剛性，全或全部的驗證，如團隊的 blank of Research Paper

基礎，是接受小型模型的草稿還是延遲大型模型。這避免了級聯反复瓶頸和投機解碼的嚴格，全或全部或全無的拒絕。

這種方法的功能在於其適應性。與標準投機解碼中的嚴格驗證不同，延期規則可以根據特定需求量身定制，從而使開發人員對成本，速度和質量之間的權衡進行精細的控制。

例如，可以將系統配置為基於簡單的置信度檢查，只能升級到大型模型，如果小型模型不確定。它還可以執行比較檢查，如果大型模型對不同的答案更有信心。

更高級的配置甚至可以執行成本效益分析，只有當大型模型的潛在質量增強的速度超過計算的“成本”以拒絕小型模型的草稿時，才會推遲。這種靈活性是投機性級聯方法的核心。

關鍵見解是，即使不是完美的匹配，較小的模型的答案仍然可以很好。正如研究人員所解釋的那樣，通過投機性解碼，“即使小型模型產生了一個很好的答案，也需要匹配大型模型令牌的要求，即使草稿完全可以接受，也迫使拒絕。投機性級聯旨在防止這種效率低下。

將理論投入測試:令人鼓舞的結果

以驗證他們的方法，Google的團隊在包括Gemma和 t5 。他們衡量了跨越摘要，推理和編碼等各種任務的性能。結果令人信服。通過在生成過程的每個步驟中允許更細微的決策，系統可以更快地產生高質量的答案，並且在計算開銷較少的情況下。

在技術仍處於研究階段時，其潛力很明顯。 Google Research指出:“這種混合方法可以對成本質量的平衡進行細粒度的控制，為更聰明和更快的應用鋪平了道路。”

如果成功實施，這可能會轉化為明顯更明顯，更便宜的AI功能工具的最終體驗。

Google的工作是解決AI效率難題的更廣泛行業的一部分。公司正在探索各個角度，以減少LLM的硬件需求和運營成本。有些像DFLOAT11的開發人員一樣，正在創建無損壓縮技術來縮小模型尺寸。

這與有損但高效的方法（如Multiverse Computing的Compactifai）形成鮮明對比，該方法使用量子啟發的張量張量網絡來縮減95％的鏈接，而超過了

其他人專注於優化AI生命週期的不同部分。例如，Sakana AI開發了一個系統，以使LLMS中的主動內存（KV CACHE）在長期文化任務中更有效。這種對優化的強烈關注強調了下一波AI開發的關鍵效率如何變得如此。該行業正在從純粹的關注規模轉變為對更智能，更易於訪問和經濟可行的AI的更可持續的追求。

Google推出了“投機級聯”，以使LLM推理更快，更便宜

Published by All Things Windows on September 13, 2025

AI推理的高成本

投機性級聯:一種“兩全其美的方法”方法

將理論投入測試:令人鼓舞的結果

IT Info

People Inc.首席執行官:Google是AI內容刮擦的“故意壞演員”

IT Info

Windows 11 25H2官方ISO圖像（構建26200.5074）現已可用。下載鏈接

IT Info

如何在Windows（11＆10）中查看網絡上的所有設備

Google推出了“投機級聯”，以使LLM推理更快，更便宜

Published by All Things Windows on September 13, 2025

AI推理的高成本

投機性級聯:一種“兩全其美的方法”方法

將理論投入測試:令人鼓舞的結果

Related Posts

IT Info

People Inc.首席執行官:Google是AI內容刮擦的“故意壞演員”

IT Info

Windows 11 25H2官方ISO圖像（構建26200.5074）現已可用。下載鏈接

IT Info

如何在Windows（11＆10）中查看網絡上的所有設備