中國人工智慧新創公司 DeepSeek 上週末超越 OpenAI 的 ChatGPT,登上蘋果美國應用商店榜首。
這一里程碑是在DeepSeek 的旗艦推理模型R1 於1 月20 日發布之後實現的,該模型因其能夠與先進人工智慧系統競爭的能力而迅速獲得認可,同時只需要通常所需資源的一小部分。-Apple-App-Store-Top-Charts-Free-Sensor-Towe-1024×926.jpg”>來源:感測器塔
DeepSeek R1 提供尖端性能,同時根據CCP 規則進行審查。
這款由R1 驅動的應用程式的快速崛起反映了DeepSeek 對Nvidia H800 GPU 的創新工程和戰略使用,該GPU 由於美國製裁而限制向中國出口。
相關:為什麼美國的製裁可能難以遏制中國的科技成長
透過開發有效的培訓方法,這家總部位於杭州的公司已經證明人工智慧的進步是即使在地緣政治限制下也是可能的。這一發展挑戰了美國在人工智慧領域的主導地位,並引發了人們對旨在遏制中國技術能力的出口限制的有效性的質疑。:一種資源豐富的方法
根據該公司2024 年12 月發布的一份研究論文,DeepSeek 的R1 模型僅使用2,048 個Nvidia H800 GPU 進行訓練,總成本不到600 萬美元。儘管存在硬體限制,DeepSeek 的工程師開發了新穎的優化技術,使R1 能夠獲得與在更強大的基礎設施上訓練的模型相媲美的結果。在一次會議上解釋了該公司的方法。 「我們需要消耗四倍的運算能力才能達到同樣的效果」
相關: DeepSeek AI 開源 VL2 系列視覺語言模型
梁說:「我們需要做的就是不斷縮小這些差距。梁在美國限制生效之前儲備Nvidia GPU 的遠見是該公司在充滿挑戰的環境下保持創新能力的關鍵因素。限制下實現高精度。微軟 AI Frontiers 實驗室首席研究員 Dimitris Papailiopoulos 強調了 R1 設計的效率。
「他們的目標是獲得準確的答案,而不是詳細說明每個邏輯步驟,從而顯著減少計算時間,同時保持高水平的有效性,」他告訴《麻省理工科技評論》。在AIME 2024 上獲得了79.8% 的分數。也發布了能夠在消費級硬體上運行的較小版本的R1。的範例。 。 Meta 首席人工智慧科學家 Yann LeCun 強調了開源協作在 DeepSeek 成功中的作用。 「DeepSeek 受益於開放研究和開源(例如 Meta 的 PyTorch 和 Llama)。他們提出了新的想法,並將其建立在其他人的工作之上。和開源的力量。開發方法的全球影響力。制定了R1 模型。可負擔性也是一個關鍵因素。這些定價策略與模型的強大功能相結合,使DeepSeek 對個人和企業都成為有吸引力的選擇。什麼關於「開源」模型
DeepSeek 成功的地緣政治影響
DeepSeek 的崛起正值中美地緣政治緊張局勢加劇之際,尤其是在人工智慧領域,自2021年以來,拜登政府擴大了對中國先進晶片出口的限制,旨在限制該國開發具有競爭力的人工智慧技術的能力。不能完全阻止創新。
該公司的成功引發了美國科技界對出口管制的意外後果的爭論。樑的儲備GPU 和注重效率的策略已經證明,限制可以刺激創造性地解決問題,而不是完全扼殺牠。面臨業界強烈反對Nvidia 等公司
中國人工智慧更廣泛的發展
DeepSeek 的開源方法符合中國人工智慧領域更廣泛的趨勢。其他公司,包括阿里雲和李開復的01.AI,近年來也優先考慮了開源計畫。梁描述了解決他所說的中國和西方人工智慧企業之間「效率差距」的必要性,並解釋說本地公司通常需要雙倍的資源才能達到可比的結果。相關:阿里Qwen發布QVQ-72B-Preview多模態推理AI模型
2024年7月,梁亮表示,「我們估計國內外最好的模型在模型結構和性能上可能有1倍的差距」僅僅因為這個原因,我們就需要消耗兩倍的計算能力才能達到同樣的效果,此外,數據效率上也可能存在一倍的差距,即我們需要消耗兩倍。訓練數據和計算能力加在一起,需要消耗四倍的運算能力,我們需要做的是不斷縮小這些差距。
他的領導能力為 DeepSeek 在中國和國際上贏得了認可。 2024年,他受邀參加與中國官員的高層會議,討論推進國家人工智慧能力的戰略。 DeepSeek不斷完善模型,公司面臨機會與挑戰並存。雖然其成就證明了資源高效型人工智慧的可行性,但此類方法是否可以擴展以與OpenAI 和Meta 等科技巨頭的大規模投資競爭仍然存在疑問。的一篇文章中Meta 執行長馬克·祖克柏強調了大規模投資人工智慧基礎設施的重要性,並表示「這將是人工智慧的決定性一年。到 2025 年,我預計 Meta AI 將成為服務超過 10 億人的領先助手,Llama 4 將成為領先的最先進模型,我們將建立一名人工智慧工程師,開始貢獻越來越多的程式碼我們的研發工作。為此,Meta 正在建造一個 2GW 以上的資料中心,該資料中心規模如此之大,將涵蓋曼哈頓的很大一部分。
我們將在 25 年實現約 1GW 的線上運算,到年底我們將擁有超過 130 萬個 GPU。我們計劃今年在資本支出上投資 60-65B 美元,同時大幅發展我們的人工智慧團隊,並且我們有資本在未來幾年繼續投資。這是一項巨大的努力,在未來幾年,它將推動我們的核心產品和業務,釋放歷史性創新,並擴大美國的技術領先地位。讓我們開始建造吧!已經做出了對全球人工智慧產業產生持久影響。