Tencent memperluaskan portfolio AInya dengan pelancaran Hunyuan T1, model yang dioptimumkan dengan alasan yang direka untuk bersaing dengan model bahasa yang besar di China, termasuk DeepSeek-R1.

Prestasi. href=”https://huggingface.co/spaces/tencent/hunyuan-t1″target=”_ blank”> Demo on Hugging face . Ia ditala menggunakan pembelajaran tetulang dan penanda aras secara dalaman pada dataset penalaran seperti MMLU dan GPQA.

Tencent meletakkan model sebagai alat yang berdaya maju untuk perniagaan yang memerlukan penalaran berprestasi tinggi tanpa beban pengiraan atau kos pelesenan yang terikat dengan alternatif Barat. Model yang paling dioptimumkan oleh Tencent sehingga kini, diposisikan untuk memenuhi keperluan pengguna perusahaan yang memerlukan logik berstruktur, penjanaan jangka panjang yang konsisten, dan halusinasi yang dikurangkan. Tencent telah menggunakan teknik pembelajaran tetulang untuk meningkatkan konsistensi jangka panjang dan meminimumkan halusinasi fakta. Pengoptimuman Bahasa Cina: Model ini berfungsi dengan baik dalam tugas-tugas pemahaman logik bahasa Cina dan membaca, menjajarkan tumpuan Tencent terhadap kes penggunaan perusahaan domestik. Data Latihan dan Infrastruktur: T1 dilatih sepenuhnya di dalam rumah menggunakan infrastruktur awan Tencent, memastikan kediaman data dan pematuhan dengan piawaian pengawalseliaan China.

Hasil penanda aras

Tenyuan T1 Tencent diposisikan sebagai model penalaran berprestasi tinggi yang dioptimumkan untuk tugas gred perusahaan dalam domain Cina dan matematik. Model ini telah dilatih dan dihoskan sepenuhnya di Tencent Cloud, dengan ketersediaan melalui API dan integrasi ke dalam dokumen Tencent. Profil penanda arasnya menunjukkan tumpuan strategik yang jelas: cemerlang dalam penalaran dan matematik sambil mengekalkan penjajaran yang dihormati, pengendalian bahasa, dan prestasi penjanaan kod.

Ia laluan di GPQA Diamond dengan 69.3, lebih rendah daripada Deepseek R1 (71.5) dan O1 (75.7). Pada C-Simpleqa, skor T1 67.9, di belakang Deepseek R1 (73.4). Penalaran: T1 cemerlang dalam kategori ini. Ia mencapai skor tertinggi pada Drop F1 pada 93.1, menjelang Deepseek R1 (92.2), GPT-4.5 (84.7), dan O1 (90.2). Pada logik zebra, ia mencatatkan 79.6, tepat di belakang O1 (87.9) tetapi jauh di atas GPT-4.5 (53.7). Matematik: Skor Hunyuan T1 96.2 pada Math-500, tepat di bawah Deepseek R1’s 97.3 dan dekat dengan O1’s 96.4. Skor AIME 2024 adalah 78.2, sedikit di bawah Deepseek R1 (79.8) dan O1 (79.2), tetapi jauh di atas GPT-4.5 (50.0). Kod: Skor model 64.9 pada LiveCodeBench-marginally di bawah Deepseek R1 (65.9) dan O1 (63.4), tetapi jauh lebih awal daripada GPT-4.5 (46.4). Ini meletakkannya sebagai mampu, walaupun tidak luar biasa, dalam penjanaan kod. Tencent Hunyuan T1 Benchmarks vs Deepseek R1 GPT-4.5 O1 (Sumber: Tencent) Pemahaman Bahasa Cina: skor Hunyuan T1 91.8 pada C-Eval dan 90.0 pada CMMLU, mengikat Deepseek R1 pada kedua-duanya dan mengatasi GPT-4. Ini mengesahkan kekuatannya dalam konteks perusahaan Cina. Alignment: Pada Arenahard, skor T1 91.9-Sindiran di belakang GPT-4.5 (92.5) dan Deepseek R1 (92.3), tetapi menjelang O1 (90.7), menunjukkan penjajaran nilai dan pengajaran yang teguh. Arahan berikut: Model memperoleh 81.0 pada CFBench, sedikit di bawah Deepseek R1 (81.9) dan GPT-4.5 (81.2), dan 76.4 di cello, di bawah kedua-dua Deepseek R1 (77.1) dan GPT-4.5 (81.4). Keputusan ini mencadangkan pematuhan arahan yang baik tetapi tidak terbaik dalam kelas. Penggunaan Alat: Skor T1 Hunyuan 68.8 pada T-Eval, yang mengukur keupayaan AI untuk mengendalikan alat luaran. Ia mengatasi DeepSeek R1 (55.7) tetapi jatuh kekurangan GPT-4.5 (81.9) dan O1 (75.7). tencent Penanda aras Hunyuan T1 vs Deepseek R1 Gpt-4.5 O1 (Sumber: Tencent)

Kecekapan model memenuhi kekangan dunia sebenar

Semasa panggilan pendapatan Q4 2024, para eksekutif menjelaskan bagaimana kecekapan kesimpulan-tidak mengira skala-membimbing pilihan penempatan mereka.”Syarikat-syarikat China secara amnya mengutamakan kecekapan dan penggunaan penggunaan pelayan GPU dan itu tidak semestinya menjejaskan keberkesanan teknologi yang sedang dibangunkan,”kata Ketua Pegawai Strategi Syarikat. Daripada mengukur kluster GPU, ia memberi tumpuan kepada latensi rendah, model-model kesimpulan yang lebih ringan untuk dijalankan. Strategi ini mencerminkan kaedah yang disokong penyelidikan seperti sampel, meneliti dan skala, yang menekankan pengesahan pada masa kesimpulan dan bukannya lebih banyak latihan sumber-berat.

Menurut A

Categories: IT Info