新的DeepSeek-R1T-Chimera型號將R1推理與V3-0324的效率合併

tng技術諮詢大語言模型。該模型代表了一種技術融合，旨在結合DeepSeek AI開發的兩個不同AI系統的屬性:DeepSeek R1的著名推理能力以及3月發布的最新DeepSeek V3-0324檢查點的性能效率。根據允許的MIT許可提供的Chimera是使用TNG Tech在其

今天，我們發布了DeepSeek-r1t-Chimera，這是一個開放的權重模型，將R1推理添加到<@deepseek_ai V3-0324具有新穎的構造方法。

epsek.jpg“ tokens。

嵌合體是一個孩子llm，使用v3s… pic.twitter.com/3hythslwff7 href=“ https://twitter.com/tngtech/status/191628456612744444468?ref_src=twsrc%5etfw“ target=“ _ black”> 4月27日，2025年4月27日，2025年4月27日

DeepSeek-R1T-Chimera繼承了最近DeepSeek模型常見的Experts（MOE）結構的混合物。 MOE設計允許模型的總參數計數非常大-在這種情況下為68.5億次（由約4150萬f32 f32 f32、39億bf16和6800億f8_e4m3參數組成）-而在較小的子集中激活了較小的子集（V3大約有370億個）（在特定的任務中使用P>
SafetEnsors ，一種用於存儲模型權重的安全格式，並分佈在。它還採用了FP8量化，這是一種數值格式，與傳統的16位或32位格式相比，它可以降低內存足跡，從而有可能以可管理的精確折衷來加速計算。它利用“變形金剛”庫，並標記為“文本生成”任務。

V3-0324基本模型，該模型貢獻了效率特徵，在3月24日發布後，它在高端消費者硬件上令人印象深刻的性能後獲得了通知。 Developer Awni Hannun reported achieving over 20 tokens per second using a 4-bit quantized version on an Apple Mac Studio, commenting, “It’s the most powerful model I’ve ever run on my laptop.”

超越MOE和FP8，V3結合了諸如多頭潛在註意力（MLA）之類的架構特徵，旨在更好地捕獲長期數據依賴性和多型預測（MTP），從而使每個推理步驟生成幾個令牌，而不僅僅是一個令牌。當時，AI研究員Xeophon在某些任務上對當代人進行了有利的評估:測試。現在，它是最好的非爭議模型，dethroning十四行詩3.5。”

tng Tech Smops Chimera在其型號頁面上引用了基準，這表明它在其型號頁面上引用了基準，這表明它使用了比R1少的40％用於與R1少於R1的類似推理任務，並產生了“更加緊密的pp”。推理元素以前已被確定為具有內容過濾機制，尤其是在中國敏感的主題上。

這是在2月20日左右發行了解鎖版本的R1 1776時引起的。 href=“ http://www.linkedin.com/posts/aravind-srinivas-16051987_announcing-ir-first-open-weights-models-model-from-activity-7297697691217691769039039872-U6-U6-U6-U6-U6-U6-U6-U6-U6-U6-U6-U6 targe審查制度是在沒有傷害模型的核心推理能力的情況下進行的……一些例子的疑問，我們刪除了審查制度:“中國的政府形式是什麼? “，“誰是XI Jinaging? “，“台灣的獨立性如何影響Nvidia的股價”。嵌合體的釋放材料在合併過程中沒有說明從R1父母處理的這些過濾特徵。

在受約束環境中的效率

開發專業模型的開發（例如，諸如Chimera conterect chimera擬合的奇數型越來越多的範圍越來越多地訪問的構建範圍的策略範圍，策略範圍的範圍都可以通過策略進行了影響，該模型的範圍越來越多地限制了策略，從而限制了策略，從而限制了策略的範圍。

對高級GPU的導出控制，這種方法在Tencent在其Q4 2024收入呼叫中獲得了外部驗證，確認利用DeepSeek模型來減少其自己的GPU依賴性。一位騰訊的高管指出:“中國公司通常將效率和利用率優先考慮-對GPU服務器的有效利用……DeepSeek的成功確實象徵著和鞏固-證明了這一現實。”

deepseek Ai的原始R1模型本身僅使用了2,048 H800 H800 GPU的歷史上的培訓，該模型僅在歷史上進行了培訓。該公司最近還開源的基礎架構組件支持了這一重點，例如其3FS分佈式文件系統和FlashMLA注意力內核。

審查的陰影

技術來自DeepSeek AI源於復雜的地球政治地球上的deepseek Ai，該技術始於復雜的地球政治陰影。 a state-owned China Mobile, enforced CCP censorship, potentially used restricted Nvidia chips acquired illicitly, and engaged in intellectual property theft通過模型蒸餾。

關於潛在的IP盜竊，OpenAI向選擇委員會提供了聲明，聲稱:“通過我們的審查，我們發現Deepseek員工在OpenAI的模型中避免了護欄來提取推理輸出，該產品可以在“蒸餾”中使用，以加速較低的模型，以加速建立高級模型，以加速建立高級模型……我們在高級模型中的發展……我們發現了該模型的發展……我們發現了一個高級推理的能力……我們發現了該模型的發展。 filter and transform training data… DeepSeek likely also used leading open-source AI models to create high-quality synthetic data.”

Committee Chairman John Moolenaar stated, “This report makes it clear: DeepSeek isn’t just another AI app — it’s a weapon in the Chinese Communist Party’s arsenal…”This background forms part of the context surrounding any model, like Chimera, derived from DeepSeek AI’s foundational work.可以通過[電子郵件保護]與TNG技術諮詢有關其Chimera模型的查詢。

新的DeepSeek-R1T-Chimera型號將R1推理與V3-0324的效率合併

Published by All Things Windows on April 27, 2025

在受約束環境中的效率

審查的陰影

IT Info

新的Doge API下載工具使您可以保存和分析政府支出數據

IT Info

在黑客利用多年忽視的科技債務後，4chan恢復了

IT Info

新的DFLOAT11技術可為LLM提供30％的無損壓縮，緩解硬件需求

新的DeepSeek-R1T-Chimera型號將R1推理與V3-0324的效率合併

Published by All Things Windows on April 27, 2025

在受約束環境中的效率

審查的陰影

Related Posts

IT Info

新的Doge API下載工具使您可以保存和分析政府支出數據

IT Info

在黑客利用多年忽視的科技債務後，4chan恢復了

IT Info

新的DFLOAT11技術可為LLM提供30％的無損壓縮，緩解硬件需求