中國人工智能開發人員DeepSeek已發布了DeepSeek-V3.2-Exp,這是一個實驗模型,稱為“中間步驟”,朝著其下一代體系結構。 T
總部位於杭州的公司在周一宣布了開源模型,該公司透露其設計為測試一種新的,更有效的方法,用於釋放文語的新序列,以 公司。由於硬件短缺,其備受期待的R2型號被無限期地推遲了。 In a concurrent move that intensifies China’s AI price war, DeepSeek also announced it is cutting its API prices
作為實驗版本,新模型建立在其前身v3.1-末端,其特定目標是探索和驗證長期收藏場景中的培訓和推理效率的優化。在處理擴展的文本序列時,該新的架構旨在提供計算效率的實質性提高,這是許多大規模AI應用程序的關鍵瓶頸,同時保持了幾乎相同的模型輸出質量。
嚴格地證明了新體系結構的影響,Deepseek做出了一種策略選擇,以避免進行策略性選擇。 v3.2-exp,v3.1-terminus。 Benchmark data shows the two models performing almost identically on reasoning and coding tests, isolating the efficiency gains as the sole variable.
The model is available on the Hugging Face platform under a permissive MIT License, encouraging broad收養。 DeepSeek還發布了用於研究和高性能使用的開源內核,這表明對開發人員社區的建築創新具有堅定的承諾。
R2模型停頓後的戰略樞紐
此實驗的下一個策略eptect prattion 2
無限期停滯不前。
延遲是美國-中國科技戰爭的直接後果,該戰爭嚴重限制了訓練高級AI的高性能NVIDIA芯片。僅幾個月前,據報導,DeepSeek正在快速跟踪R2發佈到Outmaneuver競爭對手。但是,這種勢頭與最初被描述為兩項危機的勢頭相撞:首席執行官對性能和嚴重的硬件瓶頸的內部不滿。
八月的隨後報告證實了核心問題是持續的技術故障。該公司無法使用華為的國內升級籌碼完成成功的訓練,這迫使一個難以證明的NVIDIA硬件用於計算密集的培訓階段。
這一挫折突出了中國公司在構建一個堆棧的軟件上,在啟動,無效的家庭硬件上構建了一個強大的軟件。掙扎。該公司的工作也仍受到嚴格的地緣政治審查。
April的一份嚴厲的美國眾議院委員會報告給公司帶來了安全威脅,主席約翰·穆納納爾(John Moolenaar)指出:“ DeepSeek不僅是另一個AI應用程序,而且是中國共產黨的武器中的一種武器-中國共產黨的武器……” DeepSeek宣布其API價格急劇降低了“ 50%+”。這種積極的定價是對一直在侵蝕其市場份額的國內競爭對手的直接投籃。此舉升級了一場激烈的價格戰,引起了中國的AI部門的激動。
該公司正在應對諸如Z.AI(以前是Zhipu)的競爭對手的壓力,該競爭對手在7月推出了強大的GLM-4.4.5型號,其明確的策略以價格削弱了DeepSeek的價格。模型。
儘管最近開發了障礙,但DeepSeek的技術仍然引起人們的追捧。特斯拉(Tesla)在一場重大的勝利中宣布,它將為關鍵中國市場的車內語音助手的AI整合,並通過開放以效率為中心的模型,同時削減了DeepSeek,而DeepSeek正在執行多個方格的策略。它旨在重新參與開發人員社區,重新獲得其成本上的競爭優勢,並表示其創新管道很活躍,即使它導致了全球芯片戰爭的嚴厲現實。