Am 27. Februar 2025 stellte Tencent Hunyuan Turbo S vor. Führen in der KI-Entwicklung, da mehr Unternehmen nach Wegen suchen, um blitzschnelle digitale Assistenten zu liefern. Der Vergleich signalisiert die Absicht des Unternehmens, sich in einem überfüllten Markt auszuzeichnen, in dem die langsame Modellleistung von Unternehmen und Entwicklern gleichermaßen frustrieren kann. Die langsamen Erzeugungszeiten in R1 haben Spekulationen veranlasst, dass sich R2 auf sofortige Reaktionen konzentrieren kann, um die Benutzerloyalität aufrechtzuerhalten. Dieser Tencent hat Deepseek R1 nicht in seinen Benchmark-Vergleich einbezogen, so er übertrifft Deepseek R1, das auf Deepseeks V3-Modell basiert. > Wissen (mmlu, mmlu-pro, gpqa-diamond, SimpleQa, chinesisch-simpleqa)
hunyuan Turbos führt auf MMLU, Posting 89,5 (leicht über GPT4O-0806 und Deekseek V3). Es erscheint auch in Chinesisch-Simpleqa (70,8, höher als bei Deepseeks 68.0) stark, aber es bleibt hinter einigen Konkurrenten auf SimpleQa zurück, wo GPT4O mit einem höheren Score übertrifft. In ähnlicher Weise bleibt Hunyuan Turbos für BBH bei 92,2 wettbewerbsfähig. Es veröffentlicht 91,5 für den Drop-expreeding GPT4O 79,8-und zeigt einen Vorteil gegenüber Zebralogic mit 46,0, über Deepseeks 38,5. Am Aime2024 übertrifft Hunyuans 43.3 auch Deepseeks 39,2 und ähnliche oder niedrigere Werte aus den meisten anderen Modellen. 32.0, Deepseek V3 (37,6) und GPT4O (35,1). Claude sitzt in diesen Metriken höher, was darauf hindeutet, dass Hunyuan möglicherweise eine weitere Verbesserung für die Abschluss des Codes benötigt. Die Bewertungen von Deepseek V3 (86,5 bzw. 83,5) bleiben hinterher zurück, und GPT4O-0806 ist auch in beiden Kategorien zurückzuführen. Arenahard (88,6) und If-Eval (88,6) sind mit den besten Darstellern sehr vergleichbar. Die Alignment-Scores von Deepseek V3 (85,5 für Arenahard, 86,1 für If-Eval) sind nahe, aber im Allgemeinen niedriger. In einer Reihe von Benchmarks und leicht übertroffenen Deepseek V3 in den meisten Kategorien, insbesondere bei mathematischen und chinesischen Tests.
Alibaba hat bereits dazu beigetragen, die Geschwindigkeitsbesessenheit durch die Enthüllung von QWQ-Max zu fördern, ein System, das für fortschrittliche Argumentation entwickelt wurde, die Deepseek und Tencent konkurrieren. Die inländischen Konkurrenten konvergieren eine gemeinsame Priorität: Menschen mit hoher Geschwindigkeit mit KI interagieren. Viele Unternehmen verlassen sich auf automatisierte Lösungen, um Live-Chats oder komplexe Abfragen zu bewältigen. Unternehmen, die AI-Lösungen untersuchen, achten besondere Aufmerksamkeit auf diese Zeiteinsparungen, die die Einführung neuer Modelle gegenüber vertrauten, aber langsameren Alternativen beeinflussen können. Die Architektur versucht sicherzustellen, dass selbst mehrstufige Antworten ohne merkliche Verzögerung auftreten. Viele Entwickler sehen das Potenzial, diese KI in benutzergerichtete Software anzuschließen, die vor der Ausgabe eine kurze Wartezeit verlangt. Zukünftige Marktschlachten könnten davon abhalten, wie gründlich jedes Unternehmen die Genauigkeit der höchsten Stufe mit der Blitzgeneration ausgleichen. Wenn Deepseek R2 genügend Ressourcen begeht, um die Geschwindigkeitslücke zu beseitigen, könnten die beiden Marken eine weitere Welle von Durchbrüchen auslösen, die der gesamten Branche zugute kommen.