Tencent erweitert sein KI-Portfolio mit dem Start von Hunyuan T1, einem argumentationsoptimierten Modell, das mit Chinas erstklassigen Großsprachenmodellen konkurriert, einschließlich Deepseek-R1. Leistung. href=”https://huggingface.co/spaces/tencent/hunyuan-t1″target=”_ leer”> Demo auf dem Umarmen . Es wird unter Verwendung von Verstärkungslernen und intern bewertet, um Datensätze wie MMLU und GPQA zu argumentieren. src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mtcyntoxmzux-1; Base64, Phn2zyb2AWV3QM94psiwidagmtaynca3Mz ciihdpzhropsixmdi0iibozwlnahq9ijcznyig1sbnm9imh0dha6ly93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>

Tencent positioniert das Modell als kommerziell lebensfähiges Werkzeug für Unternehmen, die leistungsstarke Argumentation ohne Berechnung der Berechnung oder Lizenzkosten benötigen, die mit westlichen Alternativen gebunden sind. Das bisher am besten optimierte Modell von Tencent, die auf die Bedürfnisse von Unternehmensnutzern positioniert sind, die strukturierte logische, konsistente Langform-Erzeugung und eine verringerte Halluzination erfordern. Tencent hat Verstärkungslerntechniken angewendet, um die Langzeitkonsistenz zu verbessern und die sachliche Halluzination zu minimieren. Chinesische Sprachoptimierung: Das Modell leistet besonders gut in chinesischen Logik-und Leseverständnisaufgaben und stimmt auf Tencents Fokus auf inländische Unternehmenswendungsfälle aus. Trainingsdaten und Infrastruktur: T1 wurde mit Tencent Cloud-Infrastruktur vollständig intern geschult, um die Datenresidenz und die Einhaltung der chinesischen regulatorischen Standards zu gewährleisten.

Benchmark-Ergebnisse

Tencents Hunyuan T1 wird als Hochleistungs-Argumentationsmodell positioniert, das für Aufgaben für Unternehmensqualität in chinesischen und mathematischen Bereichen optimiert ist. Das Modell wurde vollständig in Tencent Cloud mit der Verfügbarkeit über API und Integration in Tencent-Dokumente geschult und gehostet. Das Benchmark-Profil deutet auf einen klaren strategischen Fokus hin: Exzellent in Argumentation und Mathematik und bei der Aufrechterhaltung der respektablen Ausrichtung, der Sprachhandhabung und der Codegenerierung. Es ist in GPQA Diamond mit 69,3, niedriger als Deepseek R1 (71,5) und O1 (75,7). Auf C-Simpleqa bewertet T1 67,9 hinter Deepseek R1 (73,4). Argumentation: T1 Excels in dieser Kategorie. Es erzielt die höchste Punktzahl bei Drop F1 bei 93,1 vor Deepseek R1 (92,2), GPT-4,5 (84,7) und O1 (90,2). Auf der Zebra-Logik erzielt es 79,6, knapp hinter O1 (87,9), aber weit über GPT-4,5 (53,7). Mathe: Hunyuan T1 erzielt 96,2 in Math-500, direkt unter Deepseek R1s 97,3 und in der Nähe von O1s 96.4. Die AIME 2024-Punktzahl beträgt 78,2, leicht unter Deepseek R1 (79,8) und O1 (79,2), jedoch weit über GPT-4,5 (50,0). Code: Das Modell bewertet 64,9 auf LivecodeBench-Marginal unter Deepseek R1 (65,9) und O1 (63,4), jedoch erheblich vor GPT-4,5 (46,4). Dies positioniert es in der Codegenerierung als fähig, wenn auch nicht außergewöhnlich. Tencent Hunyuan T1 Benchmarks gegen Deepseek R1 GPT-4,5 O1 (Quelle: Tencent) Verständnis für chinesische Sprache: Hunyuan T1 bewertet 91,8 auf C-Eval und 90,0 auf CMMLU, Bindung von Deepseek R1 an beiden und Outperforming GPT-4.5 mit fast 10 Punkten. Dies bestätigt seine Stärke in chinesischen Unternehmenskontexten. Ausrichtung: auf Arenahard, T1 Scores 91.9-Sehr hinter GPT-4,5 (92,5) und Deepseek R1 (92.3), jedoch vor O1 (90,7), was auf robuste Wertausrichtungen und Unterrichtskohärenz hinweist. Anweisung folgt: Das Modell verdient 81,0 auf CFBench, leicht unter Deepseek R1 (81,9) und GPT-4,5 (81,2) und 76,4 auf Cello, unterhalb von Deepseek R1 (77,1) und GPT-4,5 (81,4). Diese Ergebnisse deuten darauf hin, dass eine gute, aber nicht erstklassige Einhaltung der Anweisungen. Werkzeuggebrauch: Hunyuan T1 bewertet 68.8 auf T-Eval, wodurch die Fähigkeit von AI misst, externe Werkzeuge zu bedienen. Es übertrifft Deepseek R1 (55,7), fällt jedoch auf GPT-4,5 (81,9) und O1 (75,7) ab. Tencent Hunyuan T1-Benchmarks gegen Deepseek R1 GPT-4,5 O1 (Quelle: Tencent)

Modelleffizienz trifft die Einschränkungen der realen Welt. Während seines Gewinnaufrufs im vierten Quartal 2024 erklärten die Führungskräfte, wie die Effizienz der Inferenz-nicht die Berechnung der Skala-ihre Bereitstellungsentscheidungen leitete.”Chinesische Unternehmen priorisieren im Allgemeinen die Effizienz und Nutzung-effiziente Nutzung der GPU-Server. Dies beeinträchtigt nicht unbedingt die endgültige Wirksamkeit der entwickelten Technologie”, sagte der Chief Strategy Officer des Unternehmens. Anstatt GPU-Cluster zu skalieren, konzentriert es sich auf die unteren Latenz und inferenz abgestimmten Modelle, die leichter zu betreiben sind. Die Strategie spiegelt Forschungsmethoden wie Stichprobe, Prüfung und Skalierung wider, die die Überprüfung zur Inferenzzeit betonen, anstatt zu ressourcenarztem Training.

Trotz dieses Effizienzfokus kehrt Tencent nicht von Hardware-Investitionen zurück. Nach einem . Ein Teil dieses Wachstums wurde auf die Entwicklung der Unternehmens-KI zurückgeführt. Das Unternehmen signalisierte 2025 weitere Investitionen, um sowohl die Verbraucher-als auch die Unternehmensanfänger-AI-Infrastruktur zu erweitern. Um modellspezifische Funktionen für verschiedene Geschäftsbranche zu liefern. Dieser Ansatz kann sich an Unternehmen ansprechen, die AI-Lösungen suchen, die vollständig in China gehostet werden und den nationalen Datenstandards entsprechen.

Im Gegensatz zu OpenAIs Trajektorie, die die Veröffentlichung seines größten und teuersten Modells bisher, gpt-4,5, im Februar erscheint, erscheint im Februar. Erweitert seine Rolle im sich schnell entwickelnden KI-Sektor Chinas. Wenn der politische Druck und die Hardware einschränken, könnte sich dieser Ansatz als zunehmend pragmatisch erweisen.