新しいdeepseek-r1t-chimeraモデルは、R1の推論とV3-0324の効率を統合します

tngテクノロジーコンサルティングオープンウェイトの大規模な言語モデル。このモデルは、DeepSeek AIが開発した2つの異なるAIシステムの属性を組み合わせることを目的とした技術的融合を表します。これは、3月にリリースされた最近のDeepSeek V3-0324チェックポイントの著名な推論能力と、最近のDeepSeek V3-0324チェックポイントのパフォーマンス効率です。寛容なMITライセンスの下で提供されたChimeraは、 x x emonction exp> fid as as constructitions as as constrationt as

を提供します。その方法が、両親の選択されたニューラルネットワークコンポーネントから直接モデルを構築することを伴うように思われます。特に、従来のフィニッシュや知識の蒸留ではなく、R1とV3-0324の両方から異なるルーティングされたエキスパート層のカスタムマージで増強されたV3-0324の共有エキスパートレイヤーを使用して使用します。指定された目的は、R1の推論強度を保持しているがV3の速度と低いリソースの需要で動作するモデルを作成することでした。ターゲット=”_ blank”>@deepseek_ai v3-0324新しい構造方法があります。トークン。 href=”https://twitter.com/tngtech/status/19162845661274444468?ref_src=twsrc%5etfw””_ _ _ blank”> 4月27日、2025年

deepseek-r1t-chimeraは、最近のdeepseekモデルに共通する混合物（MOE）アーキテクチャを継承します。 MOE設計により、モデルは非常に大きな合計パラメーター数（この場合は685億カウント（約4150万F32、39億BF16、および6800億F8_E4M3パラメーターで構成されています）を持つことができます。 href=”https://huggingface.co/docs/safeTensors”ターゲット=”_ blank”> safetensors 、モデルの重みを保存するための安全な形式であり、 163シェードファイル。また、従来の16ビットまたは32ビット形式と比較してメモリフットプリントを削減する数値形式であるFP8量子化も採用し、管理しやすいトレードオフで計算を高速化する可能性があります。「トランス」ライブラリを活用し、「テキストジェネレーション」タスクにタグ付けされています。

効率の特性に寄与するV3-0324ベースモデルは、3月24日のリリースに続いて高級消費者ハードウェアでのパフォーマンスを発表した後に通知しました。開発者AWNI HANNUN 報告 4ビット量子化バージョンを使用して、Apple Mac Studioのコメントを使用して、4ビットの量子化バージョンを使用して20トークン以上を達成しました。

MOEおよびFP8を超えて、V3には、長距離データ依存関係をより適切にキャプチャするように設計されたマルチヘッド潜在的注意（MLA）などのアーキテクチャの特徴が組み込まれており、マルチトークン予測（MTP）が組み込まれており、1つだけでなく推論されたステップごとにいくつかのトークンを生成できます。 ai研究者Xeophonは、特定のタスクのために、私の内部のumplicek v3にぶら下がっているv3を迎えています。テストは、今では最高の非合理モデルであり、ソネット3.5を退位させます。”

Tng Techは、キメラがこの効率を継承することで有望であることを示しています。推論要素に貢献するコンポーネントは、以前にコンテンツフィルタリングメカニズム、特に中国内のトピックに敏感であると特定されていました。 href=”http://www.linkedin.com/posts/aravind-srinivas-srinivas-16051987_Announcing-our-first-open-open-weights-model-from-from—7297691221769039872-u6-4″_ frank”_ frank”検閲は、モデルの核となる推論能力を傷つけることなく行われました。「中国の政府の形とは何ですか?」、「Xi Jinpingとは誰ですか?」、「台湾の独立性がNvidiaの株価にどのように影響するか」という検閲を削除するクエリの例の例があります。キメラのリリース材料は、R1の親からのこれらのフィルタリング特性がマージプロセス中に処理された方法またはかどうかを指定しません。高度なGPUの米国の輸出制御。 Tencentのエグゼクティブは、「中国企業は一般に、GPUサーバーの効率性と利用を優先していることを指摘しています… Deepseekの成功は本当に象徴化し、固化しました。同社は最近、3FS分散ファイルシステムやFlashmlaの注意カーネルなど、この焦点をサポートするオープンソースのインフラストラクチャコンポーネントも持っています。 a 国有の中国モバイル、潜在的に使用されているnvidia chips emagdia chips emaged nvidia chipsを使用する潜在的なccp ccp ccp inagdia chips emaged ccp ccp ccp in egid emaged ccp ccp ccp in egid emaged ccp ccp ccpを使用する可能性のあるユーザーデータ収集の広範囲にわたるユーザーデータ収集モデルの蒸留による盗難。モデルの応答とフィルタトレーニングデータのフィルタ…DeepSeekは、主要なオープンソースAIモデルを使用して高品質の合成データを作成した可能性があります。」

委員会委員長のジョン・ムーラナールは、「このレポートはそれを明確にします。基本的な仕事。 TNGテクノロジーコンサルティングは、キメラモデルに関する問い合わせのために[電子メール保護]を介してアクセスできます。

新しいdeepseek-r1t-chimeraモデルは、R1の推論とV3-0324の効率を統合します

Published by All Things Windows on April 27, 2025

IT Info

新しいDoge APIダウンロードツールを使用すると、政府の支出データを保存および分析できます。

IT Info

GoogleはUWB精度追跡に近いデバイスネットワークエッジを見つけます

IT Info

Google DeepmindのキャメルアーキテクチャがLLMプロンプトインジェクションをブロックすることを目的とする方法

新しいdeepseek-r1t-chimeraモデルは、R1の推論とV3-0324の効率を統合します

Published by All Things Windows on April 27, 2025

Related Posts

IT Info

新しいDoge APIダウンロードツールを使用すると、政府の支出データを保存および分析できます。

IT Info

GoogleはUWB精度追跡に近いデバイスネットワークエッジを見つけます

IT Info

Google DeepmindのキャメルアーキテクチャがLLMプロンプトインジェクションをブロックすることを目的とする方法