DeepSeek的新推理模型R1挑戰了Openai的Chatgpt O1的性能,即使它依賴於限制的GPU和相對較小的預算。

在由美國出口控制限制高級籌碼的環境中,由對沖基金經理Liang Wenfeng創立的中國人工智能初創公司Liang Wenfeng創立了效率和資源共享如何推動AI開發的效率和資源共享。

公司的崛起引起了中國和美國技術界的注意。

相關:為什麼美國製裁可能會抑制中國技術的增長

DeepSeek的旅程始於2021年,當時Liang(以其,開始購買數千個NVIDIA GPU。

當時,這一舉動似乎很不尋常。作為Liang的業務合作夥伴之一

根據同一消息來源,“除了說我想建立這個,他無法闡明他的願景,這將是一個改變遊戲。我們認為這只有諸如Bytedance和Alibaba之類的巨人才有可能。”

儘管最初懷疑,梁仍然專注於準備潛在的美國出口控制。這種遠見卓識使DeepSeek能夠獲得大量的NVIDIA硬件,包括A100和H800 GPU,然後才能生效。

相關: deepseek ai開放源Models

DeepSeek通過透露它已經使用2,048 NVIDIA H800 GPU培訓了其671億參數R1的培訓,僅需560萬美元。

DeepSeek的工程師中國市場優化了培訓程序,以在通常與大型語言模型相關的一小部分成本中獲得高級結果。

由麻省理工學院技術評論(MIT Technology Reviews)出版的前DeepSeek研究人員Zihan Wang描述了該團隊如何在保持準確性的同時減少內存使用情況和計算開銷。

他說,技術限制促使他們探索新穎的工程策略,最終幫助他們與資金較高的美國科技實驗室保持競爭力。

相關:中國的DeepSeek R1推理模型和OpenAI O1競爭者對數學和編碼基準的出色結果進行了大量審查

r1在各種數學和編碼基準中都表現出了出色的功能。 DeepSeek透露,R1在Math-500上得分為97.3%(通過@1),Aime 2024的79.8%。

這些數字與Openai的O1系列競爭,展示了故意的優化如何挑戰對更強大芯片訓練的模型。

dimitris Microsoft AI Frontiers Lab的首席研究員Papailiopoulos告訴MIT技術評論:“ DeepSeek的旨在進行準確的答案,而不是詳細介紹每個邏輯步驟,從而大大減少了計算時間,同時保持了高度的有效性。” DeepSeek的主要模型發布了較小的R1版本,可以在消費級硬件上運行。

DeepSeek在很大程度上複製了O1-Mini,並已開源。 pic.twitter.com/2TBQ5P5L2C

– Aravind srinivas(@aravsrinivas)/aravsrinivas/status/1881372861405036773?ref_src=twsrc%5etfw “> 2025年1月20日

theft> theft> theft> theft> thebough> r1-Zero 零>

除了R1的標準培訓外,DeepSeek還使用稱為R1-Zero的變體進行了純淨的增強學習。這種方法在公司的研究文檔中詳細介紹,拋棄了對小組相對政策優化(GRPO)的監督微調。

通過刪除單獨的批評家模型並依靠分組的基線得分,R1-Zero顯示了經過思考的推理和自我反射行為。但是,該團隊承認R1-Zero產生了重複或混合語言輸出,表明需要部分監督才能在日常應用中使用。

DeepSeek背後的開源精神將其與眾不同。許多專有實驗室。儘管OpenAI,Meta和Google DeepMind等美國公司通常會隱藏其培訓方法,但DeepSeek公開提供了代碼,模型權重和培訓食譜。

相關:Mistral AI首次亮相Pixtral 12b,用於文本和圖像處理

根據Liang的說法,這種方法源於建立一種研究文化的渴望透明度和集體進步。在訪談與中國媒體媒體36KR一起,他解釋說,許多中國AI Ventures與西方同齡人相比與他們的效率相比,這種差異需要在硬件和培訓策略上進行協作。

他的觀點與中國AI場景中的其他人保持一致,那裡的開源版本正在上升。阿里巴巴雲(Alibaba Cloud)推出了100多種開源模型,由Kai-fu Lee創立的01.AI最近與Alibaba Cloud合作,建立了一個工業AI實驗室。

全球技術社區已做出了回應。敬畏和謹慎的混合。在X上,馬賽克網絡瀏覽器的共同發入Marc Andreessen,現在是Andreessen Horowitz的主要投資者,他寫道:“ DeepSeek R1是我見過的最令人驚嘆,最令人印象深刻的突破之一,並且是一位深刻的開放源給世界的禮物。”

deepseek r1是我見過的最令人驚嘆,最令人印象深刻的突破之一-作為開源,是對世界的深刻禮物。 > – Marc Andreessen🇺🇸(@pmarca) > META首席AI科學家Yann Lecun在LinkedIn上指出,儘管DeepSeek的成就似乎表明中國超越了美國,但更準確地說,開源模型集體逐漸趕上了專有的替代方案。

“ DeepSeek從開放研究和開源(例如Meta的Pytorch和Llama)中獲利,”他解釋說。 “他們提出了新的想法,並在其他人的工作之上建立了他們。由於他們的工作是出版和開源的,所以每個人都可以從中獲利。這就是開放研究和開源的力量。”

關於線程

的查看

甚至Mark Zuckerberg是Meta的創始人兼首席執行官,暗示了對數據中心和GPU基礎架構的大規模投資>在Facebook上,他寫道:“這將是AI的決定性一年。 LL建立了一位AI工程師,該工程師將開始為我們的研發努力提供越來越多的代碼’將在’25年在線〜1GW,我們將在今年以超過130萬的GPU結束。在未來幾年繼續進行投資的資本。這是一項巨大的努力,在未來幾年中,它將推動我們的核心產品和業務,解鎖歷史創新並擴大美國技術領導力。

Zuckerberg的言論表明,資源密集型策略仍然是塑造AI部門的主要力量。

相關:-元沒有告訴您有關“開源”模型

擴大影響力和未來的前景

DeepSeek,當地人才的結合,早期GPU庫存以及對開源方法的強調已將其推向了通常保留給大型科技巨頭的聚光燈。 2024年7月,梁說他的團隊旨在解決他所謂的中國人工智能效率差距。

他描述了許多本地AI公司,需要將計算能力增加一倍以匹配海外結果,這使得在納入數據使用時進一步更加複雜。允許Liang及其工程師專注於研究重點。 Liang說:

“我們估計最好的國內和外國模型可能在模型結構和訓練動力學方面具有一倍的差距。僅出於這個原因,我們就需要消耗兩倍的計算能力才能達到相同的效果。

此外,數據效率的差距也可能有一倍,也就是說,我們需要消耗兩倍的訓練數據和計算能力,以實現相同的效果。一起,我們需要消耗四倍的計算能力。我們需要做的是不斷縮小這些差距。”

DeepSeek在中國的聲譽也得到了提升,當Liang成為唯一被邀請參加與該國第二次與該國第二次與Li Qiang舉行備受矚目的AI領導人。最有力的官員,他被敦促專注於構建核心技術。

雖然未來仍然不確定,尤其是隨著美國的限制進一步收緊,深處以將限制轉變為快速解決問題的途徑的方式來應對挑戰。-規模培訓技術,這家初創公司激發了有關資源效率是否可以認真對待大規模超級計算集群的更廣泛的討論,因為DeepSeek繼續提煉R1,太平洋兩邊的工程師和政策制定者都在密切觀察在不斷發展的限制時代,該模型的成就可以為AI進步鋪平道路。

Categories: IT Info