Tencent mengungkap model HUNYUAN TURBO untuk mengalahkan Deepseek R1 dengan balasan hampir instan

Pada tanggal 27 Februari 2025, Tencent memperkenalkan HUNYUAN TURBO S , sebuah model yang dikutip di dalam p9, PROFOON PROFON PROFON PRIFOLD PRANDSEEK R1 pada kecepatan respons dengan mengirimkan balasan yang hampir tidak ada. Pengembangan AI karena lebih banyak perusahaan mencari cara untuk memberikan asisten digital yang cepat. width=”1080″tinggi=”744″SRC=”Data: Image/SVG+XML; Nitro-PEnTTy-ID=MTY5MTOYMTE3-1; BASE64, PHN2ZYB2AWV3QM94PSIWIDAGMTA4MCA3ND Qiihdpzhropsixmdgwiibozwlnahq9ijc0ncigeg1sbnm9iMh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Perbandingan langsung ini menandakan niat perusahaan untuk menonjol di pasar yang ramai, di mana kinerja model yang lambat dapat membuat frustrasi pengguna dan pengembang perusahaan. Keputusan ini mencerminkan persaingan eksternal dari OpenAi dan laboratorium global lainnya, tetapi entri baru Tencent ke lapangan mungkin juga menjadi faktor kunci.

Deepseek itu sendiri tetap populer, namun waktu pembangkitan yang lambat dalam R1 telah mendorong spekulasi bahwa R2 mungkin fokus pada tanggapan instan untuk mempertahankan loyalitas pengguna.

hunyuan TURBOBO. Umumnya menunjukkan kinerja tingkat atas atau dekat di atas banyak kategori pengujian sambil melampaui Deepseek V3 di berbagai bidang, terutama pengetahuan, matematika, dan tugas-tugas berbahasa Mandarin. That Tencent did not include DeepSeek R1 in its benchmark comparison, suggests, it is not outperforming DeepSeek R1, which is built upon DeepSeek’s V3 model.

Though most models in these comparisons are quite close, HunYuan Turbo S often edges out its competitors by a few points:

Tencent Hunyuan-Turbo-S benchmarks (Source: Tencent)

Pengetahuan (MMLU, MMLU-PRO, GPQA-Diamond, SimpleQA, China-Simpleqa)

HUNYUAN TURBO S LEADS pada MMLU, memposting 89,5 (sedikit di atas GPT4O-0806 dan Deepseek V3). Ini juga tampak kuat di China-Simpleqa (70,8, lebih tinggi dari 68,0 Deepseek), tetapi tertinggal di belakang beberapa saingan di SimpleQA, di mana GPT4O mengungguli dengan skor yang lebih tinggi.

PRECORING (BBH, drop, zebralogic) (while-2. Demikian pula skor tinggi untuk BBH, Hunyuan Turbo S tetap kompetitif di 92.2. Ini memposting 91.5 untuk drop-GPT4O 79.8-dan menunjukkan keunggulan pada zebralogic dengan 46.0, di atas Deepseek’s 38.5.

matematika (matematika, Aime2024)

HUNYUAN TURBO S menonjol dengan mencapai 89.7. Pada AIME2024, Hunyuan’s 43,3 juga mengalahkan Deepseek’s 39,2 dan skor serupa atau lebih rendah dari sebagian besar model lain.

kode (humaneval, liveCodebench)

untuk tugas-tugas yang dikodekan, ini menghasilkan 91.0 pada Humaneval-Onbcober. 32.0, Trailing Deepseek V3 (37.6) dan GPT4O (35.1). Claude duduk lebih tinggi dalam metrik ini, menyarankan HUNYUAN mungkin perlu perbaikan lebih lanjut untuk penyelesaian kode.

Cina (C-eval, CMMLU)

Tugas-tugas ini menempatkan HUNYUAN TURBO di dekat atau di atas, menampilkan 90.9 di C-Beva dan 90 di dekat atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau di atas atau. DeepSeek V3’s scores (86.5 and 83.5, respectively) lag behind, and GPT4o-0806 also trails in both categories.

Alignment (LiveBench, ArenaHard, IF-Eval)

HunYuan Turbo S registers 61.0 on LiveBench, topping GPT4o and rivaling Claude, while Arenahard (88.6) dan if-eval (88.6) cukup sebanding dengan yang berkinerja terbaik. Skor Alignment Deepseek V3 (85,5 untuk Arenahard, 86.1 untuk If-Eval) sudah dekat, tetapi umumnya lebih rendah.

tencent Tolok ukur HUNYUAN-TURBO-S (Sumber: Tencent)

Secara keseluruhan, data menunjukkan hunyuan turbo s adalah leher dan leher dengan gpt4o-0806, claude-3,5 sonnet-1022, dan llama.

Code-related benchmarks remain an exception, where Claude tends to stand out, and HunYuan Turbo S shows potential but doesn’t command the top of the table.

Alibaba’s QwQ-Max in the Mix

Alibaba has already played a part in fueling the speed obsession by unveiling QwQ-Max, a system designed for advanced reasoning that Rival Deepseek dan Tencent. Pesaing domestik berkumpul pada prioritas bersama: membiarkan orang berinteraksi dengan AI dengan kecepatan tinggi.

Sementara fitur seperti dukungan pengkodean atau materi lebarnya bahasa, waktu tunggu sebelum jawaban muncul tampaknya telah menjadi titik penjualan sentral. Banyak bisnis mengandalkan solusi otomatis untuk menangani obrolan langsung atau pertanyaan kompleks.

Ketika sistem seperti HUNYUAN TURBO S trim detik dari setiap jawaban, itu dapat meningkatkan alur kerja pada skala. Perusahaan yang mengeksplorasi solusi AI memberi perhatian khusus pada penghematan waktu ini, yang dapat mempengaruhi adopsi model baru daripada alternatif yang akrab tetapi lebih lambat.

HUNYUAN TURBO S dibangun di sekitar pipa pemrosesan lebih cepat yang mengurangi latensi selama tugas yang kompleks. Arsitekturnya mencoba untuk memastikan bahwa bahkan respons multi-langkah muncul tanpa penundaan yang nyata.

Meskipun spesifik tetap tersembunyi, para ahli menebak Tencent adalah memperbaiki optimasi inferensi pada kelompok GPU bermutu tinggi, yang memungkinkan interaksi waktu nyata yang mendorong melampaui sistem yang lebih lama. Banyak pengembang melihat potensi dalam memasukkan AI ini ke perangkat lunak yang menghadap pengguna yang menuntut penantian singkat sebelum output.

Deepseek masih memiliki pengaruh dan telah berjanji alasan yang lebih maju untuk R2, tetapi langkah Tencent dapat membentuk kembali ekspektasi di sekitar umpan balik langsung. Pertempuran pasar di masa depan dapat bergantung pada seberapa teliti masing-masing perusahaan menyeimbangkan akurasi tingkat atas dengan generasi yang cepat. Jika Deepseek R2 melakukan sumber daya yang cukup untuk mengatasi kesenjangan kecepatan, kedua merek itu mungkin memicu gelombang terobosan lain yang menguntungkan industri secara keseluruhan.

Tencent mengungkap model HUNYUAN TURBO untuk mengalahkan Deepseek R1 dengan balasan hampir instan

Published by All Things Windows on February 27, 2025

Pengetahuan (MMLU, MMLU-PRO, GPQA-Diamond, SimpleQA, China-Simpleqa)

matematika (matematika, Aime2024)

kode (humaneval, liveCodebench)

Cina (C-eval, CMMLU)

Alignment (LiveBench, ArenaHard, IF-Eval)

Alibaba’s QwQ-Max in the Mix

IT Info

Microsoft Mengungkap Majorana 1 Chip Quantum, mengklaim menyelesaikan ketidakstabilan qubit

IT Info

AI magma baru Microsoft dapat mengontrol robot dan perangkat lunak melalui input multimodal

IT Info

Cloudflare memperluas otomatisasi AI dengan agen AI SDK

Tencent mengungkap model HUNYUAN TURBO untuk mengalahkan Deepseek R1 dengan balasan hampir instan

Published by All Things Windows on February 27, 2025

Pengetahuan (MMLU, MMLU-PRO, GPQA-Diamond, SimpleQA, China-Simpleqa)

matematika (matematika, Aime2024)

kode (humaneval, liveCodebench)

Cina (C-eval, CMMLU)

Alignment (LiveBench, ArenaHard, IF-Eval)

Alibaba’s QwQ-Max in the Mix

Related Posts

IT Info

Microsoft Mengungkap Majorana 1 Chip Quantum, mengklaim menyelesaikan ketidakstabilan qubit

IT Info

AI magma baru Microsoft dapat mengontrol robot dan perangkat lunak melalui input multimodal

IT Info

Cloudflare memperluas otomatisasi AI dengan agen AI SDK