tencentは、deepseek-R1を含む中国の最適な大規模な言語モデルと競合するように設計された推論最適化モデルであるHunyuan T1の発売により、AIポートフォリオを拡大しています。パフォーマンス。
hunyuan T1は api を介して利用可能になりました。 href=”https://huggingface.co/spaces/tencent/tencent/hunyuan-t1″ターゲット=”_ blank”> hugging顔のデモ。強化学習を使用して調整され、MMLUやGPQAなどの推論データセットに内部的にベンチマークされています。 src=”data:image/svg+xml; nitro-empty-id=mtcyntoxmzux-1; base64、phn2zyb2awv3qm94psiwidagmtaynca3mz ciihdpzhropsixmdi0iibozwlnahq9ijcznyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
tencentは、西洋の代替品に関連する計算負荷またはライセンスコストなしで高性能推論を必要とする企業のための商業的に実行可能なツールとしてモデルを配置します。 Tencentの最も推論的な最適化されたモデルは、構造化されたロジック、一貫した長期生成、および幻覚の減少を必要とするエンタープライズユーザーのニーズを満たすように位置付けられています。 Tencentは、長型の一貫性を改善し、事実上の幻覚を最小限に抑えるために、強化学習技術を適用しています。 中国語の最適化:モデルは、中国語のロジックと読解タスクで特にうまく機能し、Tencentが国内の企業のユースケースに焦点を当てています。 トレーニングデータとインフラストラクチャ: T1は、Tencent Cloud Infrastructureを使用して完全に社内でトレーニングされ、データの居住と中国の規制基準へのコンプライアンスを確保しました。
ベンチマーク結果
TencentのHunyuan T1は、中国および数学のドメインのエンタープライズグレードタスクに最適化された高性能推論モデルとして位置付けられています。このモデルは、APIを介した可用性とTencent Docsへの統合と、Tencent Cloudの完全なホスティングとTencent Docsなどの生産性ツールへの統合を組み合わせて、Tencent Cloudで完全にトレーニングおよびホストされています。そのベンチマークプロファイルは、明確な戦略的焦点を示唆しています:立派なアライメント、言語処理、およびコード生成パフォーマンスを維持しながら推論と数学に優れています。
知識: Hunyuan T1はMMLU Proで87.2、Deepseek R1(84.0)およびGPT-4.5(86.1)、GPT-4.5)を上回る。 GPQAダイヤモンドでは69.3で、DeepSeek R1(71.5)およびO1(75.7)よりも低くなります。 C – Simpleqaでは、T1はDeepseek R1(73.4)に次いで67.9をスコアリングします。 推論: T1はこのカテゴリで優れています。 Deepseek R1(92.2)、GPT-4.5(84.7)、およびO1(90.2)に先立って、93.1でドロップF1で最高スコアを達成します。 Zebraロジックでは、O1(87.9)のすぐ後ろに79.6を獲得しますが、GPT-4.5(53.7)を大きく上回ります。 Math: Hunyuan T1はMath – 500で96.2を獲得し、Deepseek R1の97.3のすぐ下で、O1の96.4に近い。そのAIME 2024スコアは78.2で、Deepseek R1(79.8)およびO1(79.2)のわずかに下ですが、GPT-4.5(50.0)をはるかに上回っています。 コード:モデルは、livecodebenchで64.9をスコアリングします。marginallymarginallydeepseek R1(65.9)およびO1(63.4)を下回りますが、GPT-4.5(46.4)をかなり先に進めます。これにより、コード生成では、例外ではありませんが、有能であると位置付けます。 Tencent Hunyuan T1 Benchmarks vs Deepseek R1 GPT-4.5 O1(出典:Tencent)中国語の理解: Hunyuan T1はC-Evalで91.8、CMMLUで90.0をスコアし、Deepseek R1の両方でDeepseek R1を結び、GPT-4.5をほぼ10ポイントにします。これにより、中国の企業の文脈での強みが確認されます。 アラインメント:アレンハードでは、T1スコア91.9です。 次の指示:モデルはCFBenchで81.0を獲得し、Deepseek R1(81.9)およびGPT-4.5(81.2)、および76.4、Deepseek R1(77.1)およびGPT-4.5(81.4)の両方の下で76.4を獲得します。これらの結果は、クラス最高の指導のコンプライアンスではないが、良好ではないことを示唆しています。 ツールの使用: Hunyuan T1はT-Evalで68.8をスコアします。これは、外部ツールを操作するAIの能力を測定します。 Deepseek R1(55.7)よりも優れていますが、GPT-4.5(81.9)およびO1(75.7)には及ばない。 tencent Hunyuan T1 Benchmarks vs Deepseek R1 GPT-4.5 O1(出典:Tencent)
モデル効率は現実世界の制約を満たしています
その所有モデルスイートを拡大しながら、Tencentは、ディープシークのようなサードパーティモデルに依存し続けます。 2024年第4四半期の収益コール中に、幹部は、計算スケールではなく、推論効率が展開の選択肢を導く方法を説明しました。 「中国企業は一般に、GPUサーバーの効率性と活用を優先しています。これは、開発中のテクノロジーの最終的な有効性を必ずしも損なうわけではありません」と、同社の最高戦略責任者は述べています。 GPUクラスターをスケーリングするのではなく、実行するのが軽い、低遅延の推論調整モデルに焦点を当てています。この戦略は、よりリソースが多いトレーニングではなく、推論時間での検証を強調するサンプル、精査、スケールなどの研究支援方法を反映しています。 a
中心的な役割は報われているように見えます。 href=”https:>元
単一の大規模モデルをスケーリングするのではなく、各リリースを正確な使用法シナリオに合わせています。内部分析の複雑なロジック、顧客インターフェイスの迅速な相互作用。このアプローチは、中国で完全にホストされ、国家データ基準に準拠しているAIソリューションを求めている企業にアピールする可能性があります。 Tencentは、中国の急速に進化するAIセクターにおける役割を拡大しています。
社内開発、選択的外部採用、および統合された製品ロールアウトの組み合わせは、ボリュームではなく適応性に根ざした戦略を示唆しています。ポリシーの圧力とハードウェアの制約が市場を再構築するにつれて、そのアプローチはますます実用的になる可能性があります。