Le 27 février 2025, Tencent a introduit Hunyuan Turbo S , un modèle qu’il peut surpasser Deepseek R1 sur la vitesse de réponse en fournissant des efforts de plus d’instants. Dans le développement de l’IA, car de plus en plus d’entreprises cherchent des moyens de fournir des assistants numériques rapides.

Claims Bold

Selon Tencent, Hunyuan Turbo S est en mesure de répondre aux requêtes dans un deuxième, se distinguant de Deepseek R1, Hunyuan T1 et d’autres modèles de pensée lents qui doivent”penser”pour une réponse avant de répondre. width=”1080″height=”744″src=”data: image/svg + xml; nitro-empty-id=mty0odoymte1-1; base64, phn2zyb2awv3qm94psiwidagmta4mca3nd Qiihdpzhropsixmdgwiibozwlnahq9ijc0ncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Cette comparaison directe signale l’intention de l’entreprise de se démarquer sur un marché bondé, où les performances du modèle lente peuvent frustrer les utilisateurs et les développeurs d’entreprise.

Deepseek a récemment avancé ses propres plans en précipitant le lancement de R2 grâce à un calendrier de développement accéléré. Cette décision reflète la concurrence externe d’OpenAI et d’autres laboratoires mondiaux, mais la nouvelle entrée de Tencent dans le domaine pourrait également être un facteur clé.

Deepseek lui-même reste populaire, mais les temps de génération lents dans R1 ont suscité des spéculations selon lesquelles R2 peut se concentrer sur les réponses instantanées pour maintenir les résultats de la benchmark de l’utilisateur

S montre généralement des performances de haut niveau ou presque top dans de nombreuses catégories de tests tout en dépassant le V3 Deepseek dans plusieurs domaines, en particulier les connaissances, les mathématiques et les tâches chinoises. Que Tencent n’a pas inclus Deepseek R1 dans sa comparaison de référence, suggère qu’il ne surpasse pas Deepseek R1, qui est construit sur le modèle V3 de Deepseek.

Bien que la plupart des modèles de ces comparaisons soient assez proches, Hunyuan Turbo S saut souvent ses concurrents par quelques points:

Tencent Hunyuan-turbo-s benchmarks (Source: Tencent Tencent Connaissance (MMLU, MMLU-PRO, GPQA-DIAMOND, Simpleqa, Chinese-Simpleqa)

Hunyuan Turbo S sur MMLU, affichant 89,5 (légèrement au-dessus de GPT4O-0806 et V3 Deepseek). Il semble également fort en chinois-Simpleqa (70,8, supérieur à celui de Deepseek 68,0), mais il est en retard sur certains concurrents sur Simpleqa, où GPT4O surpasse avec un score plus élevé.

Raisonnement (BBH, Drop, Zebralogic)

tandis que Claude-3.5 SONNET-102 et Deepseek V3 Les scores de BBH, Hunyuan Turbo S reste compétitif à 92,2. Il affiche 91.5 pour la chute-en dépassement de 79,8 de GPT4O-et montre un avantage sur le zèbre avec 46,0, au-dessus de la 38,5.

Math de Deepseek (Math, Aime2024)

Hunyuan Turbo s en atteignant 89.7 sur les mathématiques, comparé à 87.8 pour Deepsek V3. On AIME2024, HunYuan’s 43.3 also outdoes DeepSeek’s 39.2 and similar or lower scores from most other models.

Code (HumanEval, LiveCodeBench)

For coding tasks, it earns 91.0 on HumanEval—just shy of Claude’s 95.0—but stumbles on LiveCodeBench à 32,0, traînant Deepseek V3 (37,6) et GPT4O (35.1). Claude se trouve plus haut dans ces mesures, ce qui suggère que Hunyuan pourrait avoir besoin d’une amélioration supplémentaire de l’achèvement du code.

chinois (c-eval, cmmlu)

Ces tâches placent Hunyuan Turbo S près ou en haut, présentant 90,9 sur C-Eval et 90.8 en haut. Les scores de Deepseek V3 (86,5 et 83,5, respectivement) sont à la traîne, et GPT4O-0806 traîne également dans les deux catégories.

Alignement (LiveBench, Arenahard, IF-Eval)

Hunyuan Turbo S Withing on Arengbench, Topping Gpt4o et Riveling S, tandis que Arenhbard, Arenbench, Toppin (88.6) et IF-Eval (88.6) sont tout à fait comparables aux meilleurs interprètes. Les scores d’alignement de Deepseek V3 (85,5 pour Arenahard, 86.1 pour IF-Eval) sont proches, mais généralement inférieurs.

Tencente Benchmarks Hunyuan-Turbo-S (Source: Tencent)

Dans l’ensemble, les données indiquent que Hunyuan Turbo S est au coude et au cou avec GPT4O-0806, Claude-3.5 Sonnet-1022 et LLAMA3.1-405B sur un certain nombre de benchmarks et de linguas chinois légèrement. Les références liées au code

restent une exception, où Claude a tendance à se démarquer, et Hunyuan Turbo S affiche le potentiel mais ne commande pas le haut du tableau.

Alibaba d’Alibaba dans le mélange

alibaba a déjà joué un rôle dans le fait que l’observation de la vitesse par un UNVE-MAX, a déjà joué à l’observation de la vitesse par un UNVEILAG Rivals Deepseek et Tencent. Les concurrents domestiques convergent sur une priorité partagée: laisser les gens interagir avec l’IA à grande vitesse.

Alors que des fonctionnalités telles que le support de codage ou la largeur du langage, le temps d’attente avant qu’une réponse émerge apparemment est devenue un argument de vente central.

En tant que modèles de raisons de l’IA à grande échelle, les réponses rapides améliorent l’expérience utilisateur et l’efficacité. De nombreuses entreprises s’appuient sur des solutions automatisées pour gérer des chats en direct ou des requêtes complexes.

Lorsqu’un système comme Hunyuan Turbo S coupe les secondes de chaque réponse, il peut améliorer les flux de travail à grande échelle. Les entreprises explorant les solutions d’IA accordent une attention particulière à ces économies de temps, ce qui peut influencer l’adoption de nouveaux modèles sur des alternatives familières mais plus lentes.

Hunyuan Turbo S est construit autour de pipelines de traitement plus rapides qui réduisent la latence pendant les tâches complexes. Son architecture essaie de s’assurer que même les réponses en plusieurs étapes apparaissent sans retard notable.

Bien que les spécificités restent sous les wraps, les experts supposent que Tencent affine les optimisations d’inférence sur les grappes de GPU de haut niveau, permettant des interactions en temps réel qui poussent au-delà des anciens systèmes. De nombreux développeurs voient le potentiel de brancher cette IA en logiciel orienté utilisateur qui demande une courte attente avant la sortie.

Deepseek exerce toujours une influence et a promis un raisonnement plus avancé pour R2, mais la décision de Tencent peut remodeler les attentes autour des commentaires immédiats. Les futures batailles du marché pourraient dépendre de la façon dont chaque entreprise équilibre la précision de niveau supérieur avec la génération rapide par la foudre. Si Deepseek R2 engage suffisamment de ressources pour combler l’écart de vitesse, les deux marques pourraient déclencher une autre vague de percées qui profitent à l’industrie dans son ensemble.

Categories: IT Info