Το Tencent επεκτείνει το χαρτοφυλάκιό του AI με την έναρξη του Hunyuan T1, ένα μοντέλο βελτιστοποιημένης από τη συλλογιστική, το οποίο έχει σχεδιαστεί για να ανταγωνιστεί τα κορυφαία γλωσσικά μοντέλα της Κίνας, συμπεριλαμβανομένου του DeepSeek-R1. Η απόδοση. href=”https://huggingface.co/spaces/tencent/hunyuan-t1″target=”_ blank”> demo στο αγκάλιασμα προσώπου . Συντονίζεται χρησιμοποιώντας μάθηση ενισχυτικής και εσωτερικά συγκριτικά σε σύνολα δεδομένων όπως το MMLU και το GPQA. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mtcyntoxmzux-1, base64, phn2zyb2awv3qm94psiwidagmtaynca3mz CiiHdpzhropsixmdi0iibozwlnahq9ijcznyigeg1sbnmm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>
Το Tencent τοποθετεί το μοντέλο ως εμπορικά βιώσιμο εργαλείο για τις επιχειρήσεις που χρειάζονται συλλογιστική υψηλής απόδοσης χωρίς το κόστος υπολογισμού ή το κόστος αδειοδότησης που συνδέεται με το φως των δυτικών εναλλακτικών λύσεων. Το μεγαλύτερο μοντέλο βελτιστοποιημένου από τη συλλογιστική του Tencent μέχρι σήμερα, τοποθετημένο για να καλύψει τις ανάγκες των επιχειρηματικών χρηστών που απαιτούν δομημένη λογική, συνεπή παραγωγή μακράς μορφής και μειωμένη ψευδαίσθηση. Η Tencent έχει εφαρμόσει τεχνικές μάθησης ενίσχυσης για τη βελτίωση της συνέπειας της μακράς μορφής και την ελαχιστοποίηση της πραγματικής ψευδαίσθησης. Βελτιστοποίηση της κινεζικής γλώσσας: Το μοντέλο εκτελεί ιδιαίτερα καλά στη λογική της κινεζικής γλώσσας και στις εργασίες κατανόησης ανάγνωσης, ευθυγραμμίζοντας με την εστίαση της Tencent στις περιπτώσεις χρήσης εγχώριων επιχειρήσεων. Τα δεδομένα και η υποδομή εκπαίδευσης: T1 εκπαιδεύτηκαν εξ ολοκλήρου εσωτερικά χρησιμοποιώντας την υποδομή cloud Tencent, εξασφαλίζοντας την κατοικία δεδομένων και τη συμμόρφωση με τα κινεζικά ρυθμιστικά πρότυπα.
Αποτελέσματα αναφοράς
Το Hunyuan T1 της Tencent τοποθετείται ως μοντέλο λογικής υψηλής απόδοσης βελτιστοποιημένο για εργασίες επιχειρήσεων σε κινεζικούς και μαθηματικούς τομείς. Το μοντέλο έχει εκπαιδευτεί και φιλοξενείται εξ ολοκλήρου στο Tencent Cloud, με διαθεσιμότητα μέσω API και ενσωμάτωση σε Tencent Docs. Το προφίλ αναφοράς του προτείνει μια σαφή στρατηγική εστίαση: Εξέλιξη στη συλλογιστική και τα μαθηματικά διατηρώντας ταυτόχρονα αξιοσέβαστη ευθυγράμμιση, χειρισμό γλωσσών και απόδοση παραγωγής κώδικα. Σχεδιάζει στο Diamond GPQA με 69,3, χαμηλότερα από το Deepseek R1 (71,5) και O1 (75,7). Στο C-Simpleqa, η Τ1 βαθμολογεί 67,9, πίσω από το Deepseek R1 (73,4). συλλογιστική: Το T1 υπερέχει σε αυτήν την κατηγορία. Επιτυγχάνει το υψηλότερο σκορ στο Drop F1 στις 93,1, μπροστά από το Deepseek R1 (92,2), το GPT-4,5 (84,7) και το O1 (90,2). Στη λογική Zebra, βαθμολογεί 79,6, ακριβώς πίσω από το O1 (87,9) αλλά πολύ πάνω από το GPT-4,5 (53,7). μαθηματικά: Hunyuan T1 βαθμολογεί 96,2 στο Math-500, ακριβώς κάτω από το Deepseek R1’s 97,3 και κοντά στο O1’s 96,4. Η βαθμολογία AIME 2024 είναι 78,2, ελαφρώς κάτω από το Deepseek R1 (79,8) και το O1 (79,2), αλλά πολύ πάνω από το GPT-4,5 (50,0). Κωδικός: Το μοντέλο βαθμολογεί 64,9 στο LiveCodeBench-Marginally κάτω από το Deepseek R1 (65,9) και το O1 (63,4), αλλά σημαντικά μπροστά από το GPT-4,5 (46,4). Αυτό το τοποθετεί ως ικανό, αν και όχι εξαιρετικό, στην παραγωγή κώδικα. Tencent Hunyuan T1 Benchmarks vs Deepseek R1 GPT-4.5 O1 (Πηγή: Tencent) Κατανόηση της κινεζικής γλώσσας: Hunyuan T1 βαθμολογίες 91,8 σε C-Eval και 90,0 σε CMMLU, δεσμεύοντας Deepseek R1 και στις δύο και να ξεπεράσει το GPT-4,5 με σχεδόν 10 σημεία. Αυτό επιβεβαιώνει τη δύναμή του σε κινεζικά επιχειρηματικά πλαίσια. Ευθυγράμμιση: στο Arenahard, T1 βαθμολογεί 91,9-ελαφρώς πίσω από το GPT-4,5 (92,5) και το Deepseek R1 (92,3), αλλά μπροστά από το O1 (90,7), υποδεικνύοντας ισχυρή ευθυγράμμιση αξίας και συνοχή της διδασκαλίας. Ακολουθούν: Το μοντέλο κερδίζει 81,0 στο CFBench, ελαφρώς κάτω από το Deepseek R1 (81,9) και το GPT-4,5 (81,2) και το 76,4 στο Cello, κάτω από το Deepseek R1 (77,1) και το GPT-4.5 (81.4). Αυτά τα αποτελέσματα υποδεικνύουν καλή αλλά όχι την καλύτερη συμμόρφωση με τις οδηγίες. Χρήση εργαλείων: Hunyuan T1 βαθμολογεί 68,8 στο T-Eval, το οποίο μετρά την ικανότητα της AI να λειτουργεί εξωτερικά εργαλεία. Υποστηρίζει το Deepseek R1 (55,7), αλλά υπολείπεται από το GPT-4,5 (81,9) και το O1 (75,7). tencent Hunyuan T1 Benchmarks vs Deepseek R1 GPT-4.5 O1 (Πηγή: Tencent)