中國人工智能初創公司DeepSeek在5月28日確認了對R1人工智能模型的“小試驗升級”。該模型對於在今年早些時候提升公司的全球知名度至關重要。用戶現在可以測試增強的版本。

DeepSeek保證,根據公司Wechat Channel的官方公告,其API接口和使用方法保持不變,該公告由。這一增量步驟標誌著DeepSeek在競爭性的AI領域內的持續發展,並在巨大的地緣政治壓力下。

該公司鼓勵通過其官方網站,移動應用程序和迷你程序來對升級進行反饋。此更新是DeepSeek的一系列發展中的最新信息。該公司在瀏覽國際審查的同時一直釋放模型和工具。對用戶和行業的意義在於觀察DeepSeek的迭代性改進及其管理外部挑戰的能力。自從有影響力的第一版以來,有各種迭代和收養,在幾個推理基准上都超出了Openai的O1(當時的主要模型)。

,DeepSeek R1作為開放源發行了,它也看到了幾次第三方修改。困惑AI在2月引入了R1 1776作為無審查的變體,因為原始R1模型包括內容過濾機制。 TNG Technology Consulting於4月發布了其DeepSeek-R1T-Chimera模型,該模型旨在將R1的推理與DeepSeek的V3-0324 Checkpoint的效率相結合,該檢查點於3月發布。

deepSeek也積極為開放源代源AI做出了積極貢獻。 2025年4月,該公司發起了一項開源計劃,發布了有效的MLA解碼內核FlashMLA。 DeepSeek將其描述為“小而真誠的進步”。 In late April, DeepSeek then released DeepSeek-Prover-V2-671B as another model, aimed at mathematical theorem proving.

The company also open-sourced its Fire-Flyer File System (3FS) and, in collaboration with Tsinghua University, introduced Self-Principled Critique Tuning (SPCT), an innovative AI alignment technique.

地緣政治壓力和戰略反應

DeepSeek的進步發生在強烈的地緣政治逆風中。美國CCP的一個眾議院選擇委員會在4月標記了該公司的國家安全風險。 “這份報告很明確:DeepSeek不僅是另一個AI應用程序,而且是中國共產黨的武器庫中的一種武器,旨在監視美國人,竊取我們的技術並顛覆美國法律。 “效率。

這涉及多頭潛在註意(MLA)和FP8量化等技術,這是一種低精度數值格式,可降低記憶需求。當中國競爭對手Tencent在第4季度的2024年收入電話會議上確認利用DeepSeek模型時,這種效率的重點得到了驗證。 

競爭性的AI景觀繼續推動DeepSeek的發展。 4月份的報告表明,DeepSeek正在加快其下一代R2模型的推出,該模型最初計劃於2025年5月。預計R2模型將根據R1較早的高級推理和編碼功能的較早著名的限制。