Deutsche IT-Firma TNG Technology Consulting hat ein neues Open-Source-KI-Modell veröffentlicht, das Berichten zufolge doppelt so schnell ist Veröffentlicht diese Woche auf dem
Diese Methode verschmilzt Komponenten aus drei verschiedenen übergeordneten Modellen, einschließlich der ursprünglichen Deepseek R1-und V3-Modelle. Das Ergebnis ist ein Modell, das hochrangige Argumentationsfunktionen beibehält und gleichzeitig Antworten mit 60% weniger Token generiert und die Inferenzkosten und Reaktionszeiten für Entwickler drastisch senkt. Auf X schrieb der umarmte Gesichtsleiter Vaibhav Srivastav:”Verdammt! Deepseek R1t2-200% schneller als R1-0528 & 20% schneller als R1″, . Das Modell ist unter einer zulässigen MIT-Lizenz erhältlich, die eine breite kommerzielle Nutzung und Änderung ermöglicht. TNGs”Assembly-of-Experten”(AOE)-Methode darstellt eine signifikante Abweichung von der herkömmlichen Modellerstellung. Anstelle von Feinabstimmungen oder Umschulungen baut AoE ein neues Modell auf, indem sie die Gewichtstensoren von mehreren vorgeborenen Eltern selektiv verschmelzen. Ein Modell, das am meisten für spezialisierte Kenntnisse verantwortlich ist-und gleichzeitig die effizienteren gemeinsamen Schichten von schnelleren Eltern beibehalten. Diese „Tri-Mind“-Chimäre kombiniert die Begründung von R1-0528, strukturiertem Denken von R1 und der Übersicht von V3-0324. Während MOE eine Laufzeitarchitektur ist, die einen Bruchteil der „Experten“ eines Modells für eine bestimmte Aufgabe aktiviert, ist AOE eine Konstruktionstechnik, die das kombinierte Know-how in ein einzelnes, effizienteres endgültiges Modell backt. Laut Benchmarks, die von TNG veröffentlicht wurden, erreicht die R1T2-Chimäre zwischen 90% und 92% der Argumentationsleistung ihres leistungsstärksten Elternteils, R1-0528, auf Anspruch auf anspruchsvolle Tests wie Aime und GPQA. Der Hauptvorteil des Modells ist jedoch die Selbstverständlichkeit. Es erzeugt korrekte Antworten mit ungefähr 40% der von R1-0528 erforderlichen Token, eine Reduzierung der Ausgangslänge um 60%. Diese Effizienz war ein Markenzeichen seines V3-Elternteils. Nach seiner Veröffentlichung im März sagte der Entwickler Awni Hannun über das verbesserte März 2025 V3 “Es ist das mächtigste Modell. href=”https://twitter.com/awnihannun/status/1904177084609827054″target=”_ leer”> es auf seinem Laptop ausführen Expertenversammlung: Ein neuartiger Ansatz zur Modellerstellung
gleichzeitig sieht Deepseek im Westen den steigenden Regulierungsdruck gegenüber. In Deutschland hat die Datenschutzbehörde von Berlin Apple und Google die Deepseek-App aus den Filialen beantragt und sie aufgrund illegaler Datenübertragungsrisiken für China als „rechtswidrige Inhalte“ bezeichnet. Der Vorsitzende des Komitees, John Moolaar, erklärte:”Dieser Bericht macht deutlich: Deepseek ist nicht nur eine AI-App-es ist eine Waffe im Arsenal der Kommunistischen Partei der chinesischen Partei…”, in der behauptet, die App sei ein Instrument für Spionage-und Datenernten. Diese externen Drucke erzeugen einen komplexen Hintergrund für jede Technologie, die aus der Arbeit von Deepseek abgeleitet wurde. Die MIT-Lizenz bietet maximale Flexibilität für private Hosting, Anpassung und Bereitstellung in kommerziellen Anwendungen ohne Lizenzgebühren. Die erhebliche Reduzierung der Inferenzkosten macht es ideal für Hochdurchsatz-oder Echtzeitumgebungen. Es stellt das Modell in einen wünschenswerten Quadranten auf die Leistungsversus-Kosten-Kurve. Das Modell wird noch nicht für Anwendungsfälle empfohlen, die Funktionen aufrufen oder die Verwendung von Werkzeugen benötigen, was bedeutet, dass es nicht zuverlässig mit externen APIs interagieren kann. Dies schränkt die Verwendung in komplexen, automatisierten Workflows ein, obwohl zukünftige Aktualisierungen diese Lücke berücksichtigen können. Trotz dieser Einschränkungen markiert die Veröffentlichung von R1T2-Chimera durch TNG einen bemerkenswerten Schritt in der modularen KI-Entwicklung und bietet einen Blick in eine Zukunft, in der Modelle zusammengebaut und nicht nur trainiert werden.