เมื่อวันที่ 27 กุมภาพันธ์ 2568 Tencent แนะนำ Hunyuan Turbo S ซึ่งเป็นแบบจำลองที่สูงกว่า ในการพัฒนา AI ในขณะที่ บริษัท จำนวนมากหาวิธีที่จะให้ผู้ช่วยดิจิทัลที่รวดเร็วฟ้าผ่า
การเรียกร้องตัวหนา
ตาม Tencent, Hunyuan Turbo S สามารถตอบคำถามภายในไม่กี่วินาที ความกว้าง=”1080″ความสูง=”744″src=”ข้อมูล: image/svg+xml; nitro-empty-id=mty0odoymte1-1; base64, phn2zyb2awv3qm94psiwidagmta4mca3nd Qiihdpzhropsixmdgwiibozwlnahq9ijc0ncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> >>>
การเปรียบเทียบโดยตรงนี้ส่งสัญญาณว่าเจตนาของ บริษัท ที่จะโดดเด่นในตลาดที่แออัดซึ่งประสิทธิภาพของโมเดลที่ช้าสามารถทำให้ผู้ใช้และนักพัฒนาพัฒนาได้เช่นกัน
Deepseek ได้พัฒนาแผนของตัวเองเมื่อเร็ว ๆ นี้โดยการเปิดตัว R2 ผ่านตารางการพัฒนาเร่ง การตัดสินใจครั้งนี้สะท้อนให้เห็นถึงการแข่งขันภายนอกจาก OpenAI และห้องปฏิบัติการระดับโลกอื่น ๆ แต่รายการใหม่ของ Tencent ในสนามอาจเป็นปัจจัยสำคัญ
Deepseek ยังคงเป็นที่นิยม แสดงประสิทธิภาพระดับสูงสุดหรือใกล้กับระดับบนสุดของการทดสอบหลายประเภทในขณะที่เกิน Deepseek V3 ในหลาย ๆ ด้านโดยเฉพาะอย่างยิ่งความรู้คณิตศาสตร์และงานภาษาจีน Tencent นั้นไม่รวม Deepseek R1 ในการเปรียบเทียบเกณฑ์มาตรฐานแสดงให้เห็นว่ามันไม่ได้มีประสิทธิภาพสูงกว่า Deepseek R1 ซึ่งสร้างขึ้นในรุ่น V3 ของ Deepseek
แม้ว่าโมเดลส่วนใหญ่ในการเปรียบเทียบเหล่านี้จะค่อนข้างใกล้เคียง > ความรู้ (MMLU, MMLU-PRO, GPQA-DIAMOND, Simpleqa, Chinese-Simpleqa)
Hunyuan Turbo s นำไปสู่ MMLU โพสต์ 89.5 (สูงกว่า GPT4O-0806 และลึกลงไปเล็กน้อย นอกจากนี้ยังมีความแข็งแกร่งในภาษาจีน-Simpleqa (70.8 สูงกว่า 68.0 ของ Deepseek) แต่มันก็ล้าหลังคู่แข่งบางคนใน Simpleqa ที่ GPT4O มีประสิทธิภาพสูงกว่าด้วยคะแนนที่สูงขึ้น
คะแนนสูงในทำนองเดียวกันสำหรับ BBH, Hunyuan Turbo S ยังคงแข่งขันได้ที่ 92.2 มันโพสต์ 91.5 สำหรับการลดลง-เกิน 79.8 ของ GPT4O และแสดงให้เห็นถึงข้อได้เปรียบเกี่ยวกับ zebralogic ด้วย 46.0 เหนือ 38.5 ของ Deepseek
Math (คณิตศาสตร์, AIME2024) ใน AIME2024 43.3 ของ Hunyuan ก็ยังเกินกว่า 39.2 และคะแนนที่คล้ายกันหรือต่ำกว่าจากรุ่นอื่น ๆ ส่วนใหญ่
รหัส (Humaneval, LiveCodeBench)
สำหรับการเข้ารหัส 32.0, ลากลึก Deepseek V3 (37.6) และ GPT4O (35.1) Claude ตั้งอยู่สูงขึ้นในตัวชี้วัดเหล่านี้แนะนำว่า Hunyuan อาจต้องการการปรับปรุงเพิ่มเติมสำหรับการกรอกรหัส
จีน (c-eval, cmmlu)
งานเหล่านี้วาง Hunyuan Turbo S ใกล้หรือที่ด้านบน คะแนนของ Deepseek V3 (86.5 และ 83.5 ตามลำดับ) ล้าหลังและ GPT4O-0806 ยังมีเส้นทางในทั้งสองประเภท
การจัดตำแหน่ง Arenahard (88.6) และ IF-EVAL (88.6) ค่อนข้างเทียบได้กับนักแสดงที่ดีที่สุด คะแนนการจัดตำแหน่งของ Deepseek V3 (85.5 สำหรับ Arenahard, 86.1 สำหรับ if-eval) อยู่ใกล้ แต่โดยทั่วไปจะต่ำกว่า
tencent เกณฑ์มาตรฐาน Hunyuan-Turbo-S (ที่มา: Tencent)
โดยรวมข้อมูลบ่งชี้ว่า Hunyuan Turbo S เป็นคอและคอด้วย GPT4O-0806, Claude-3.5 SONNET-1022 และ Llama3.1-405B ในระดับหนึ่ง
เกณฑ์มาตรฐานที่เกี่ยวข้องกับรหัสยังคงเป็นข้อยกเว้นที่ Claude มีแนวโน้มที่จะโดดเด่นและ Hunyuan Turbo s แสดงศักยภาพ แต่ไม่ได้สั่งการด้านบนของตาราง
qwq-max ของอาลีบาบา คู่แข่ง Deepseek และ Tencent คู่แข่งในประเทศกำลังมาบรรจบกันในลำดับความสำคัญที่ใช้ร่วมกัน: ให้ผู้คนโต้ตอบกับ AI ด้วยความเร็วสูง
ในขณะที่คุณสมบัติเช่นการสนับสนุนการเข้ารหัสหรือความกว้างของภาษาเวลารอก่อนที่คำตอบจะกลายเป็นจุดขายที่ลดลงอย่างรวดเร็ว ธุรกิจจำนวนมากพึ่งพาโซลูชั่นอัตโนมัติเพื่อจัดการกับการแชทสดหรือการสืบค้นที่ซับซ้อน
เมื่อระบบเช่น Hunyuan Turbo s ไม่กี่วินาทีปิดแต่ละคำตอบมันสามารถปรับปรุงเวิร์กโฟลว์ในระดับ บริษัท ที่สำรวจโซลูชั่น AI ให้ความสนใจเป็นพิเศษกับการประหยัดเวลาเหล่านี้ซึ่งอาจมีผลต่อการยอมรับโมเดลใหม่มากกว่าทางเลือกที่คุ้นเคย แต่ช้าลง
Hunyuan Turbo S ถูกสร้างขึ้นรอบ ๆ ท่อประมวลผลที่เร็วขึ้น สถาปัตยกรรมของมันพยายามที่จะตรวจสอบให้แน่ใจว่าแม้การตอบสนองหลายขั้นตอนจะปรากฏขึ้นโดยไม่ล่าช้าอย่างเห็นได้ชัด
แม้ว่าเฉพาะจะยังคงอยู่ภายใต้การห่อหุ้มผู้เชี่ยวชาญคาดเดาว่า Tencent กำลังปรับแต่งการอนุมานการเพิ่มประสิทธิภาพในกลุ่ม GPU คุณภาพสูงทำให้การโต้ตอบแบบเรียลไทม์ นักพัฒนาหลายคนเห็นว่ามีศักยภาพในการเสียบ AI นี้เข้ากับซอฟต์แวร์ที่ต้องเผชิญกับผู้ใช้ซึ่งต้องการการรอคอยสั้น ๆ ก่อนเอาท์พุท
Deepseek ยังคงมีอิทธิพลและได้ให้คำมั่นว่าจะให้เหตุผลขั้นสูงมากขึ้นสำหรับ R2 แต่การเคลื่อนไหวของ Tencent อาจเปลี่ยนความคาดหวังในทันที การต่อสู้ในตลาดในอนาคตสามารถขึ้นอยู่กับว่าแต่ละ บริษัท แต่ละ บริษัท มีความแม่นยำระดับสูงสุดอย่างละเอียดด้วยการสร้างสายฟ้าเร็ว หาก Deepseek R2 ดำเนินการทรัพยากรเพียงพอที่จะจัดการกับช่องว่างความเร็วทั้งสองแบรนด์อาจจุดประกายความก้าวหน้าอีกครั้งที่เป็นประโยชน์ต่ออุตสาหกรรมโดยรวม
รหัส (Humaneval, LiveCodeBench)
ในขณะที่คุณสมบัติเช่นการสนับสนุนการเข้ารหัสหรือความกว้างของภาษาเวลารอก่อนที่คำตอบจะกลายเป็นจุดขายที่ลดลงอย่างรวดเร็ว ธุรกิจจำนวนมากพึ่งพาโซลูชั่นอัตโนมัติเพื่อจัดการกับการแชทสดหรือการสืบค้นที่ซับซ้อน
เมื่อระบบเช่น Hunyuan Turbo s ไม่กี่วินาทีปิดแต่ละคำตอบมันสามารถปรับปรุงเวิร์กโฟลว์ในระดับ บริษัท ที่สำรวจโซลูชั่น AI ให้ความสนใจเป็นพิเศษกับการประหยัดเวลาเหล่านี้ซึ่งอาจมีผลต่อการยอมรับโมเดลใหม่มากกว่าทางเลือกที่คุ้นเคย แต่ช้าลง
Hunyuan Turbo S ถูกสร้างขึ้นรอบ ๆ ท่อประมวลผลที่เร็วขึ้น สถาปัตยกรรมของมันพยายามที่จะตรวจสอบให้แน่ใจว่าแม้การตอบสนองหลายขั้นตอนจะปรากฏขึ้นโดยไม่ล่าช้าอย่างเห็นได้ชัด
แม้ว่าเฉพาะจะยังคงอยู่ภายใต้การห่อหุ้มผู้เชี่ยวชาญคาดเดาว่า Tencent กำลังปรับแต่งการอนุมานการเพิ่มประสิทธิภาพในกลุ่ม GPU คุณภาพสูงทำให้การโต้ตอบแบบเรียลไทม์ นักพัฒนาหลายคนเห็นว่ามีศักยภาพในการเสียบ AI นี้เข้ากับซอฟต์แวร์ที่ต้องเผชิญกับผู้ใช้ซึ่งต้องการการรอคอยสั้น ๆ ก่อนเอาท์พุท
Deepseek ยังคงมีอิทธิพลและได้ให้คำมั่นว่าจะให้เหตุผลขั้นสูงมากขึ้นสำหรับ R2 แต่การเคลื่อนไหวของ Tencent อาจเปลี่ยนความคาดหวังในทันที การต่อสู้ในตลาดในอนาคตสามารถขึ้นอยู่กับว่าแต่ละ บริษัท แต่ละ บริษัท มีความแม่นยำระดับสูงสุดอย่างละเอียดด้วยการสร้างสายฟ้าเร็ว หาก Deepseek R2 ดำเนินการทรัพยากรเพียงพอที่จะจัดการกับช่องว่างความเร็วทั้งสองแบรนด์อาจจุดประกายความก้าวหน้าอีกครั้งที่เป็นประโยชน์ต่ออุตสาหกรรมโดยรวม