DeepSeek押注,不必對AI模型進行對齊的訓練,他們需要更好的方法來通過產量產生其產量來推理。該公司與Tsinghua University合作,引入了一種稱為自我原理批判性調整(SPCT)的新方法,這是一種旨在在推理期間運行的生成獎勵建模技術,而不是在培訓期間需要大規模的偏好數據。

spct

spct在a 研究論文於4月4日發表,並以稱為DeepSeek-Grm-27b的模型進行了測試。結果令人震驚。

,而不是根據靜態人體註釋,SPCT使模型能夠在推理過程中使用自生成原理和批評循環動態地完善其輸出。結果:通過較小的型號降低成本,更好的可伸縮性和最先進的性能。使用SPCT的270億參數DeepSeek-Grm模型的MT基礎得分為8.35,即通過直接優先優化(DPO)訓練的模型,該模型得分為7.58,沒有增加模型大小。

獨立的基准進一步證實,SPCT使較小的模型能夠通過利用推理時間計算和每個查詢的32個樣本來匹配較大的較大對應物的性能,例如671b尺寸的模型。

此對齊過程旨在縮放模型大小。根據該論文,隨著模型的增長,SPCT的優勢變得更加明顯,為AI開發人員提供了一個有希望的途徑,希望避免從人類反饋(RLHF)學習加固的計算密集型途徑。

SPCT

該過程始於使用經過三鍊鍊的提示開始生成特定於上下文的原理。例如,在處理與編碼相關的任務時,模型可能會確定內存效率應優先於運行時和可讀性。這些原理指導下一階段,其中模型在約束的4,096窗口窗口中生成初始響應。

產生初始響應後,該模型將參與自我批評。它根據合成原則評估其輸出,並生成反饋以進行改進。這些批評是通過元獎勵模型(Meta-RM)實時過濾的,該模型使用512維獎勵嵌入來評估每個評論的質量。丟棄質量不佳的批評以確保改進週期的完整性。

循環的最後一步是原理的完善。使用基於梯度的優化,該模型根據批評與預期響應的匹配程度來調整其內部對齊啟發式方法。這種遞歸調整允許模型在高質量的輸出上進行迭代收斂,並動態適應每個查詢的細節,而無需外部干預或重新審核。

通過硬件構造的效率使您的效率成為可能,將硬件的效率包括在內,將硬件的效率包括在內,將硬件式設置變得可能包括在內,包括一組混合構造,將其效率提高。 GRM-27B型號僱用了16名專家,每個令牌只有兩個激活,並且支持高達128,000個令牌的上下文窗口。投機性執行進一步提高了潛在的批評路徑,從而減少推理期間的潛伏期。

性能基準測試表明,SPCT具有顯著的吞吐量優勢。處理單質批次時,系統記錄了1.4秒的延遲,每秒42個令牌的吞吐量。對於八個批量的批量,延遲增加到3.1秒,而吞吐量量表每秒增加到208個令牌。

批量SizelatencyThroughput11.4S42代幣/sects sect83.1S208代幣/秒

這種高效的效果策略允許SPCT到尺度校準型號尺寸,而無需縮放模型。結果是一種實用的,具有成本效益的方法,可以通過更大的模型來保持性能奇偶能力​​。

基準測試模型的基準成本和性能

比較分析表明,SPCT顯著降低了培訓成本和高績效模型的成本。 DeepSeek-Grm型號具有270億個參數並使用SPCT,達到了約12,000美元的培訓成本,同時提供了8.35的強大MT板凳得分。相比之下,340B參數模型Nemotron-4的成本超過120萬美元,達到8.41的MT板凳得分。 OpenAI的GPT-4O,具有1.8萬億個參數,得分為8.72,估計成本為630萬美元。

Modelsizemt-Benchapprox。培訓CostDeepseek-grm27b8.35 $ 12,000 Nemotron-4340B8.41 $ 120萬美元gpt-4O1.8.8.72 $ 630萬美元

這些比較實現了SPCT的中心優勢:SPCT的核心優勢:它使用<

SPCT的實時適應能力也使其與眾不同。傳統的對齊方法受培訓數據集的質量和範圍的限制,使它們適應新穎或不斷發展的任務慢。 In contrast, SPCT’s recursive inference strategy enables models to generate and refine principles on the fly, allowing them to handle unpredictable inputs and changing objectives without retraining.

This capability opens new frontiers in domains such as robotics, where systems must respond to dynamic environments, and multimodal AI, where alignment across text, vision, and sensor data is essential. DeepSeek團隊正在積極探索SPCT在實時機器人技術控制和分佈式學習系統中的應用,其中多種代理之間需要自適應的對準機制。

從尺度到體系結構

SPCT的轉變似乎是較大的模型的策略,而不是較大的模型。 3月24日,DeepSeek發布了其DeepSeek-V3模型的開放重量更新,以在MIT許可下擁抱面孔,並被稱為DeepSeek v3.1。該模型的重量為641GB,可在本地硬件上有效運行。

開發人員Awni Hannun,在512GB Apple Mac Studio上測試一個量化的4位版本,

該模型可在擁抱臉上在此備用中,在此備用中,可以在此備用中尋求開發3的模型3建立在Experts(MOE)設計的混合物上,其中在任何單個推論步驟中,其6850億個參數中只有370億個參數處於活動狀態。 This setup enables memory-efficient generation and is augmented by architectural features like Multi-Head Latent Attention (MLA) and Multi-Token Prediction (MTP), both designed to improve output speed and accuracy.

The DeepSeek-GRM-27B model used to test SPCT shares architectural similarities with V3-0324, suggesting that inference-time alignment could eventually be available in publicly released versions of DeepSeek’s商業模型也。 Tencent在其第四季度的2024年收入呼籲中確認,它已經在微信等產品中整合了DeepSeek模型。 A Tencent executive stated: “The industry and we, within the industry, are getting much higher productivity on a large language model training from existing GPUs without needing to add additional GPUs at the pace previously expected.”

The company’s decision to shift from GPU-hungry infrastructure toward optimized inference models comes at a time when U.S. export controls have restricted the availability of Nvidia’s top-tier AI chips in China. 2023年,美國阻止了A800和H800型號的銷售。作為響應,據報導,騰訊在當前規則下仍允許使用H20的批量訂單。

DeepSeek的早期型號R1僅使用2,048 H800 GPU進行了培訓,其大小的基礎模型異常低。 SPCT通過在不增加培訓樣本的數量或依靠大規模偏好註釋的情況下實現更好的性能來進一步與此策略保持一致。

r2快速跟踪,因為競爭對手supper

spct的出現也在策略性地:DeepSeek的下一個模型。根據2月26日的報導,該公司加速了其最初的5月時間表,以與競爭對手保持同步。 R1模型引起了人們對其效率的關注,但在推理,多語言準確性和代碼生成等領域都缺乏注意力。

競爭對手也在積極地移動。 Microsoft將OpenAI的O1型號集成到Copilot中,不需要額外的費用,然後不久之後升級到O3 Mini-High。 Xai發布了Grok 3,其表現優於GPT-4O。 Google在3月,然後揭開了Gemini 2.5 Pro實驗,在各種基準測試中恢復了頂級位置,然後在為所有用戶解鎖此模型後不久。 

Openai在2月份決定取消發布其最強大的O3型號後對所有這些發展做出了反應開放式邊界大型語言模型,這些模型引入了重大的建築變化,同時擴大了公司在消費應用程序和雲平台之間的業務。

Categories: IT Info