A team of researchers has introduced a new approach to improving artificial intelligence (AI) reasoning that doesn’t rely on expanding model size.
Their method, called “Sample, Scrutinize and Scale”, enhances AI performance at inference time by generating multiple candidate通過自我驗證選擇最可靠的響應。早期結果表明,這種方法可以使諸如Gemini V1.5 pro之類的模型比OpenAI在基準推理測試中的O1-preview具有優勢。
。但是,該方法已經引發了爭論。一些專家認為,每個查詢運行多個推斷的計算開銷可能會限制其現實世界的可行性。其他人則質疑AI是否可以有意義地“驗證自身”。
參數,培訓數據和計算功率的數量。這種方法,基於神經縮放法則,都推動了大語言模型的快速發展。但是,最近的研究和OpenAI最新的GPT-4.5模型的相對性能差表明,儘管成本飆升,但現在的擴展是在降低迴報,促使研究人員尋求替代方法。
樣本,仔細審查和縮放方法提出了一種不同的方法,通過在界定過程中優化AI,而不是在培訓過程中優化AI,而不是培訓。最好的答案。此過程創造了研究人員所說的“隱式縮放效果”,使模型在沒有其他培訓數據或較大架構的情況下看起來更有能力。
此外,該方法還包含響應重寫,其中AI以不同的格式重新制定其答案以提高驗證精度。根據這項研究,這項技術可顯著改善多步推理基準(例如MMLU和BigBench-Hard),表現優於單響應模型。
驗證挑戰和態度的質疑
ai的最大限制是在自我驗證的鬥爭。大型模型,包括GPT-4O,GPT-4.5或Claude 3.7十四行詩,通常會產生令人信服但不正確的反應,這個問題被稱為幻覺。
樣本背後的研究人員進行了審查,審查和規模縮放,認為結構性驗證可以緩解這些錯誤。他們的結果表明,與常規推論模型相比,這種方法提高了推理任務的準確性。
但是,關於這種方法的計算效率仍然存在問題。每個查詢的運行多個推斷都會增加處理需求,這可能使得這種方法對於諸如搜索引擎和語音助手之類的實時應用程序不切實際。
AI公司如何適應擴大挑戰
,傳統縮放的限制變得更加明顯,大型ai ai exterre exterre e 優化用於推理工作負載的優化潛在的基於驗證的基於驗證的基於驗證的標準量表。負擔?
雖然樣本,仔細檢查和縮放為AI縮放提供了新的視角,但其可行性仍然不確定。每個查詢的多次推論所需的加工能力增加引起了人們對延遲,可伸縮性和能耗的擔憂。
對於準確性比速度更重要的應用,例如科學研究或法律文檔審查,這種方法可能會提供有意義的好處。但是,對於更具延遲敏感的環境,增加的計算成本可能超過其優勢。
焦點是從簡單的擴展模型轉變為尋找更有效的方法來優化推理。基於驗證的規模是否成為行業標準還是仍然是一個利基實驗取決於公司在未來幾年之間如何平衡準確性,處理速度和能源需求。