DeepSeek hat erneut den exklusiven Einfluss westlicher Technologiegiganten auf das Elite-Denken gebrochen und ein offenes KI-Modell veröffentlicht, das der Leistung von OpenAI und Google in der Mathematik entspricht.
DeepSeekMath-V2 wurde am Donnerstag eingeführt und erreichte bei der Internationalen Mathematikolympiade (IMO) 2025 eine Goldmedaille.
Beim William Lowell Putnam Mathematical Competition, dem herausragenden Mathematikwettbewerb für Studenten im Grundstudium In den USA und Kanada erzielte das Modell 118 von 120 Punkten und übertraf damit die menschliche Höchstpunktzahl von 90. Im Gegensatz zu konkurrierenden Systemen, die sich hinter APIs verbergen, hat DeepSeek die Gewichte öffentlich veröffentlicht, sodass Forscher seine Logik direkt überprüfen können.
Da die Veröffentlichung während der Verzögerung des Flaggschiffmodells R2 aufgrund von US-Exportkontrollen erscheint, signalisiert sie technische Widerstandsfähigkeit. Es beweist, dass spezialisierte Architekturen hochmoderne Ergebnisse liefern können, selbst wenn der Zugriff auf modernste Hardware eingeschränkt ist.
Der Goldstandard: Durchbrechen des proprietären Monopols
DeepSeekMath-V2 hat bei der Internationalen Mathematikolympiade (IMO) 2025 offiziell den „Goldmedaillen“-Standard erreicht und 5 von 6 Problemen erfolgreich gelöst. Diese Leistung entspricht den proprietären Benchmarks, die durch den ähnlichen Meilenstein von Google DeepMind und der Goldmedaillenleistung von OpenAI gesetzt wurden, und gleicht die Wettbewerbsbedingungen mit Systemen aus, die zuvor unantastbar waren.
Diese Version ist weit entfernt von einem einfachen iterativen Update, sondern stellt eine grundlegende Veränderung beim Zugang zu Elite-KI-Argumentation dar. Während westliche Laboratorien ihre leistungsfähigsten mathematischen Modelle hinter Wänden „vertrauenswürdiger Tester“ oder teuren APIs aufbewahrt haben, steht das Modell-Repository für DeepSeekMath-V2 zum sofortigen Download zur Verfügung.
Akademische Einrichtungen und Unternehmensforscher können das Modell jetzt lokal ausführen und seine Fähigkeiten überprüfen, ohne sich darauf verlassen zu müssen Cloud-Infrastruktur, die möglicherweise Datenschutzbedenken oder geopolitischen Beschränkungen unterliegt.
Über die IMO hinaus zeigte das Modell beispiellose Leistungsfähigkeit beim Putnam-Wettbewerb, der weithin als die schwierigste Mathematikprüfung für Studenten in Nordamerika gilt. Das DeepSeek-Forschungsteam hob die Leistung hervor und erklärte:
„Bei Putnam 2024, dem herausragenden Mathematikwettbewerb für Studenten, löste unser Modell 11 von 12 Problemen vollständig und das verbleibende Problem mit geringfügigen Fehlern, erzielte eine Punktzahl von 118/120 und übertraf damit die höchste menschliche Punktzahl von 90.“
Das Überschreiten der menschlichen Obergrenze bei einer so strengen Prüfung legt nahe, dass das Modell nicht nur das Auswendiglernen abruft Beweise, aber Beschäftigung mit neuartigen Problemlösungen. Das Erreichen von 118 von 120 ist besonders bemerkenswert angesichts der extremen Schwierigkeit der Probleme, bei denen die Durchschnittswerte historisch niedrig sind.
Eine unabhängige Analyse hat diese internen Kennzahlen weiter validiert. Auswertungen der „Basic“-Teilmenge des IMO-ProofBench, einem von Google DeepMind entwickelten Benchmark, zeigen, dass das Modell eine Erfolgsquote von 99,0 % erreicht und damit seine Argumentationskonsistenz über ein breites Spektrum mathematischer Domänen bestätigt.
Die Überprüfung ist hier von entscheidender Bedeutung, da das Feld in letzter Zeit von überbewerteten Ergebnissen geplagt wurde, wie etwa einer zurückgezogenen Behauptung zu GPT-5, die fälschlicherweise behauptete, das Modell habe berühmte Erdős gelöst Probleme.
Durch die Freigabe der Gewichte hat DeepSeek eine Fähigkeit effektiv zur Ware gemacht, die noch vor wenigen Monaten als wichtiger Wettbewerbsvorteil für das Silicon Valley galt. Clement Delangue, Mitbegründer und CEO von Hugging Face, betonte die Bedeutung dieser Verschiebung in einem Beitrag auf Dies ändert sich heute nicht nur, Sie können die Gewichte auch mit der Open-Source-Version Apache 2.0 von @deepseek_ai Math-V2 auf @huggingface!
Stellen Sie sich vor, Sie besitzen das… pic.twitter.com/FbTcg1GcnE
— clem 🤗 (@ClementDelangue) 27. November 2025
Under the Hood: The Durchbruch bei der „Meta-Verifizierung“
Historisch gesehen war die zentrale Herausforderung in der mathematischen KI die „Halluzination“, bei der Modelle mithilfe fehlerhafter, zirkulärer oder unsinniger Logik zur richtigen Antwort gelangen. Bei Benchmarks für quantitatives Denken können Modelle oft die richtige Zahl erraten, ohne die zugrunde liegenden Prinzipien zu verstehen. Das DeepSeek-Forschungsteam erläuterte das Kernproblem im technischen Whitepaper:
„Viele mathematische Aufgaben wie das Beweisen von Theoremen erfordern eine strenge Schritt-für-Schritt-Ableitung anstelle numerischer Antworten, sodass Belohnungen für endgültige Antworten nicht anwendbar sind.“
Um diese grundlegende Einschränkung zu beheben, das technische Dokument beschreibt eine neuartige Architektur, die sich auf die „Meta-Verifizierung“ konzentriert. Im Gegensatz zu Standard-Verifizierungsmethoden, die einfach prüfen, ob eine Antwort mit einer Referenz übereinstimmt, wertet der Ansatz von DeepSeek den Prozess der Verifizierung selbst aus.
DeepSeek trainiert ein sekundäres Modell, um die Qualität der Analyse des Verifizierers zu beurteilen, und verhindert so, dass das primäre Modell das Belohnungssystem „manipuliert“, indem es überzeugend klingende, aber logisch ungültige Beweise liefert.
Diese rekursive Struktur schützt vor Belohnungs-Hacking und stellt sicher, dass das Modell nur für echtes Denken belohnt wird Strenge. Durch die Beurteilung, ob die identifizierten Probleme in einem Beweis die Bewertung logisch rechtfertigen, erzwingt das System eine strikte logische Konsistenz.
Dieser Architektur liegt eine „Kaltstart“-Trainingspipeline zugrunde. Anstatt sich auf riesige externe Datensätze formaler mathematischer Beweise zu verlassen, deren Kuratierung rar und teuer ist, generiert das Modell iterativ seine eigenen Trainingsdaten. Die Forscher beschreiben die Methodik wie folgt:
„Wir glauben, dass LLMs trainiert werden können, um Beweisprobleme ohne Referenzlösungen zu identifizieren. Ein solcher Verifizierer würde einen iterativen Verbesserungszyklus ermöglichen: (1) Verwendung von Verifizierungsfeedback zur Optimierung der Beweiserstellung, (2) Skalierung der Verifizierungsberechnung, um schwer zu verifizierende neue Beweise automatisch zu kennzeichnen … und (3) Verwendung dieses erweiterten Verifizierers zur weiteren Optimierung der Beweiserstellung.“
„Darüber hinaus ermöglicht uns ein zuverlässiger Beweisverifizierer das Lehren.“ Beweisgeneratoren, um Beweise auszuwerten, wie es der Verifizierer tut. Dadurch kann ein Beweisgenerator seine Beweise iterativ verfeinern, bis er keine Probleme mehr identifizieren oder lösen kann. Je genauer der Prüfer wird, desto subtilere Fehler in der Ausgabe des Generators können erkannt werden. Folglich ist der Generator gezwungen, strengere Beweise zu erstellen, um den erweiterten Verifizierern gerecht zu werden.
Solche Dynamiken erzeugen eine positive Rückkopplungsschleife, die die Leistung skaliert, ohne dass eine proportionale Erhöhung der vom Menschen gekennzeichneten Daten erforderlich ist. Zur Inferenzzeit verwendet das Modell „skalierte Testzeitberechnung“. Anstatt eine einzelne Antwort zu generieren, generiert das System 64 Kandidatenbeweise für ein bestimmtes Problem.
Anschließend führt es den Verifizierungsprozess für alle 64 Kandidaten durch, um den logischsten Pfad auszuwählen. Durch die Verlagerung der Rechenlast von der Trainingsphase (Parameterskalierung) auf die Inferenzphase (Begründungssuche) entspricht dieser Ansatz breiteren Branchentrends hin zum „System 2“-Denken, bei dem Modelle über ein Problem „grübeln“, bevor sie eine Lösung ausgeben.
Strategische Widerstandsfähigkeit: Innovation trotz Sanktionen
Die Veröffentlichung dient als kritische Gegenerzählung zu den jüngsten Schwierigkeiten des Unternehmens mit der Hardwareverfügbarkeit zeigt erhebliche technische Agilität. Das Flaggschiff-Modell R2 von DeepSeek ist mit hardwarebedingten Verzögerungen konfrontiert, die auf anhaltende Ausfälle während des Trainings auf den inländischen Ascend-Chips von Huawei zurückzuführen sind.
Dieser Rückschlag verdeutlichte die immensen Schwierigkeiten chinesischer Unternehmen beim Aufbau eines Software-Stacks auf neuer, unerprobter Hardware unter dem Druck der US-Exportkontrollen. Durch die Umstellung auf effizienzorientierte Architekturen zeigt das Labor, dass es weiterhin hochmoderne Forschung liefern kann.
DeepSeekMath-V2 basiert auf DeepSeek-V3.2-Exp-Base und beweist, dass die in diesem Modell ab September eingeführten Sparse-Attention-Mechanismen produktionsreif sind.
Im Oktober brachte das Unternehmen sein optisches Zeichenerkennungstool auf den Markt, das ähnliche Effizienztechniken zur Komprimierung der Dokumentenverarbeitung verwendete tenfold.
Die Verfügbarkeit offener Gewichte übt einen erheblichen Druck auf westliche Labore aus, ihren Closed-Source-Ansatz zu rechtfertigen.
Da der „Graben“ der Argumentationsfähigkeit zu verschwinden scheint, wird das Argument, dass die Sicherheit erfordert, diese Modelle unter Verschluss zu halten, schwieriger aufrechtzuerhalten, wenn vergleichbare Fähigkeiten auf Hugging Face frei verfügbar sind.
Für die breitere KI-Branche legt diese Veröffentlichung nahe, dass spezialisierte, hochoptimierte Modelle einen gangbaren Weg nach vorne bieten können, selbst wenn auf riesige Cluster zugegriffen wird Die Anzahl der Nvidia-GPUs ist begrenzt.
Durch die Konzentration auf algorithmische Innovationen wie Meta-Verifizierung und geringe Aufmerksamkeit schafft sich DeepSeek eine Wettbewerbsnische, die weniger auf Brute-Force-Skalierung und mehr auf architektonischem Einfallsreichtum basiert.