Tencent กำลังขยายพอร์ตโฟลิโอ AI ด้วยการเปิดตัว Hunyuan T1 ซึ่งเป็นแบบจำลองที่ปรับให้เหมาะสมซึ่งออกแบบมาเพื่อแข่งขันกับรุ่นภาษาขนาดใหญ่ชั้นนำของจีนรวมถึง Deepseek-R1
พัฒนาในระบบ ประสิทธิภาพ.
hunyuan t1 คือ ตอนนี้สามารถใช้งานผ่าน API href=”https://huggingface.co/spaces/tencent/hunyuan-t1″target=”_ blank”> การสาธิตเกี่ยวกับการกอดใบหน้า มันถูกปรับโดยใช้การเรียนรู้การเสริมแรงและเปรียบเทียบภายในชุดข้อมูลการให้เหตุผลเช่น MMLU และ GPQA.
>>>
Tencent วางตำแหน่งโมเดลเป็นเครื่องมือที่ใช้งานได้ในเชิงพาณิชย์สำหรับธุรกิจที่ต้องการการใช้เหตุผลเชิงประสิทธิภาพสูงโดยไม่ต้องมีภาระการคำนวณหรือค่าใช้จ่ายในการออกใบอนุญาตที่เชื่อมโยงกับทางเลือกตะวันตก
เทอร์โบ s ตั้งเวที T1 ให้ความสำคัญกับ Hunboan โมเดลที่ได้รับการปรับให้เหมาะสมที่สุดของ Tencent อยู่ในตำแหน่งที่อยู่ในตำแหน่งที่ตอบสนองความต้องการของผู้ใช้องค์กรที่ต้องการตรรกะที่มีโครงสร้างการสร้างรูปแบบที่สอดคล้องกันอย่างสม่ำเสมอและลดภาพหลอน
การมุ่งเน้นการให้เหตุผล: T1 ได้รับการออกแบบมาโดยเฉพาะ Tencent ได้ใช้เทคนิคการเรียนรู้การเสริมแรงเพื่อปรับปรุงความสอดคล้องของรูปแบบระยะยาวและลดภาพหลอนข้อเท็จจริง การเพิ่มประสิทธิภาพภาษาจีน: โมเดลทำงานได้ดีโดยเฉพาะอย่างยิ่งในตรรกะภาษาจีนและงานการอ่านความเข้าใจโดยสอดคล้องกับการมุ่งเน้นของ Tencent ในกรณีการใช้งานขององค์กรในประเทศ ข้อมูลการฝึกอบรมและโครงสร้างพื้นฐาน: T1 ได้รับการฝึกอบรมอย่างสมบูรณ์ภายใน บริษัท โดยใช้โครงสร้างพื้นฐานคลาวด์ Tencent ทำให้มั่นใจได้ว่าข้อมูลที่อยู่อาศัยและการปฏิบัติตามมาตรฐานการกำกับดูแลของจีน
ผลลัพธ์มาตรฐาน
Hunyuan T1 ของ Tencent อยู่ในตำแหน่งที่เป็นแบบจำลองการให้เหตุผลที่มีประสิทธิภาพสูงที่ได้รับการปรับให้เหมาะสมสำหรับงานระดับองค์กรในโดเมนภาษาจีนและคณิตศาสตร์ แบบจำลองได้รับการฝึกอบรมและโฮสต์ทั้งหมดบนคลาวด์ Tencent พร้อมความพร้อมใช้งานผ่าน API และการรวมเข้ากับเอกสาร Tencent
รวมกับโฮสติ้งในประเทศเต็มรูปแบบบนคลาวด์ Tencent โปรไฟล์มาตรฐานของมันแสดงให้เห็นถึงการมุ่งเน้นเชิงกลยุทธ์ที่ชัดเจน: ยอดเยี่ยมในการให้เหตุผลและคณิตศาสตร์ในขณะที่ยังคงการจัดตำแหน่งที่น่านับถือการจัดการภาษาและประสิทธิภาพการสร้างรหัส
ความรู้: Hunyuan T1 ทำคะแนน 87.2 บน MMLU Pro มันเป็นเส้นทางในเพชร GPQA ที่มี 69.3 ต่ำกว่า Deepseek R1 (71.5) และ O1 (75.7) ใน C-Simpleqa, T1 ได้คะแนน 67.9, หลัง Deepseek R1 (73.4) การให้เหตุผล: T1 เก่งในหมวดหมู่นี้ มันได้คะแนนสูงสุดใน Drop F1 ที่ 93.1, ก่อน Deepseek R1 (92.2), GPT-4.5 (84.7) และ O1 (90.2) บนตรรกะม้าลายมันทำคะแนน 79.6 หลัง O1 (87.9) แต่เหนือ GPT-4.5 (53.7) คณิตศาสตร์: Hunyuan T1 ทำคะแนน 96.2 ทางคณิตศาสตร์-500 ต่ำกว่า 97.3 ของ Deepseek R1 และใกล้กับ 96.4 ของ O1 คะแนน AIME 2024 คือ 78.2, ภายใต้ Deepseek R1 (79.8) และ O1 (79.2) เล็กน้อย แต่เหนือ GPT-4.5 (50.0) รหัส: โมเดลคะแนน 64.9 บน LiveCodeBench-ต่ำกว่า Deepseek R1 (65.9) และ O1 (63.4) โดยไม่เจือปน แต่ก่อน GPT-4.5 (46.4) นี่เป็นตำแหน่งที่มีความสามารถแม้ว่าจะไม่ได้พิเศษในการสร้างรหัส Tencent Hunyuan T1 เกณฑ์มาตรฐานเทียบกับ Deepseek R1 GPT-4.5 O1 (ที่มา: Tencent) ความเข้าใจภาษาจีน: Hunyuan T1 คะแนน 91.8 บน C-Eval และ 90.0 บน CMMLU สิ่งนี้ยืนยันความแข็งแกร่งในบริบทขององค์กรจีน การจัดตำแหน่ง: บน Arenahard, T1 ได้คะแนน 91.9-อยู่เบื้องหลัง GPT-4.5 (92.5) และ Deepseek R1 (92.3) แต่ก่อน O1 (90.7) แสดงถึงการจัดเรียงค่าที่แข็งแกร่งและการเชื่อมโยงการเรียนการสอน คำสั่งต่อไปนี้: รุ่นได้รับ 81.0 บน CFBench, เล็กน้อยภายใต้ Deepseek R1 (81.9) และ GPT-4.5 (81.2) และ 76.4 บนเชลโลด้านล่างทั้ง Deepseek R1 (77.1) และ GPT-4.5 (81.4) ผลลัพธ์เหล่านี้แนะนำการปฏิบัติตามคำสั่งการเรียนการสอนที่ดี แต่ไม่ดีที่สุด การใช้เครื่องมือ: Hunyuan T1 ทำคะแนน 68.8 ใน T-Eval ซึ่งวัดความสามารถของ AI ในการใช้งานเครื่องมือภายนอก มันมีประสิทธิภาพเหนือกว่า Deepseek R1 (55.7) แต่ขาด GPT-4.5 (81.9) และ O1 (75.7) tencent Hunyuan T1 Benchmarks เทียบกับ Deepseek R1 GPT-4.5 O1 (ที่มา: Tencent)
ประสิทธิภาพของแบบจำลองตรงตามข้อ จำกัด ของโลกแห่งความเป็นจริง
ในระหว่างการโทรหารายได้ไตรมาสที่ 4 ปี 2567 ผู้บริหารอธิบายว่าประสิทธิภาพการอนุมาน-ไม่ได้คำนวณมาตราส่วน-กำลังชี้นำตัวเลือกการปรับใช้ของพวกเขา
Tencent เพิ่งยืนยันการใช้โมเดลที่ปรับสถาปัตยกรรมของ Deepseek เพื่อลดการบริโภค GPU และปรับปรุงการป้อนข้อมูล “ บริษัท จีนโดยทั่วไปมีการจัดลำดับความสำคัญของประสิทธิภาพและการใช้ประโยชน์-การใช้ประโยชน์จากเซิร์ฟเวอร์ GPU อย่างมีประสิทธิภาพและนั่นไม่จำเป็นต้องทำให้ประสิทธิภาพสูงสุดของเทคโนโลยีที่ได้รับการพัฒนา” หัวหน้าเจ้าหน้าที่กลยุทธ์ของ บริษัท กล่าว แทนที่จะปรับขนาดกลุ่ม GPU มันจะมุ่งเน้นไปที่รุ่นที่ต่ำกว่าและมีการปรับแต่งแบบจำลองที่เบากว่าในการทำงาน กลยุทธ์นี้สะท้อนถึงวิธีการที่ได้รับการสนับสนุนการวิจัยเช่นตัวอย่างการตรวจสอบและขนาดซึ่งเน้นการตรวจสอบในเวลาอนุมานแทนการฝึกอบรมที่มีทรัพยากรอย่างหนักมากขึ้น
แม้จะมุ่งเน้นประสิทธิภาพนี้ Tencent ไม่ได้ถอยห่างจากการลงทุนฮาร์ดแวร์ ตาม จากการใช้งานบนอุปกรณ์ของรัฐบาลกลางโดยอ้างถึงความเสี่ยงด้านความเป็นส่วนตัวและการเชื่อมโยงที่เป็นไปได้กับโครงสร้างพื้นฐานที่ควบคุมโดยรัฐ ข้อ จำกัด เพิ่มเติมอาจเป็นไปตามการยอมรับ AI ข้ามพรมแดนสำหรับแบบจำลองที่พัฒนาขึ้นในประเทศจีน
กลับบ้านรัฐบาลจีนกำลังส่งเสริมการเริ่มต้น AI ใหม่ Reuters รายงานว่า