Deepseek setzt darauf, dass AI-Modelle nicht endlos ausgebildet werden müssen-sie brauchen bessere Möglichkeiten, um durch ihre Ausgänge zu argumentieren, wenn sie sie erzeugen. In Zusammenarbeit mit der Tsinghua University hat das Unternehmen eine neue Methode als selbstgeprägte Kritik-Tuning (SPCT) eingeführt. Eine generative Belohnungsmodellierungstechnik, die während der Inferenz ausgeführt wurde, anstatt im Training große Präferenzdaten zu erfordern. target=”_ leer”> Research Paper veröffentlicht am 4. April und in einem Modell namens Deepseek-GRM-27B getestet. Die Ergebnisse sind auffällig.
und in Abhängigkeit von statischen menschlichen Annotationen ermöglicht SPCT Modelle, ihre Ausgänge dynamisch mit selbst erzeugten Prinzipien und Kritikschleifen während der Inferenz zu verfeinern. Das Ergebnis: Reduzierte Kosten, bessere Skalierbarkeit und hochmoderne Leistung mit kleineren Modellen. Das 27-Milliarden-Parameter-Deek-G-GRM-Modell mit SPCT erzielt einen MT-Bench-Score von 8,35, der mit direkter Präferenzoptimierung (DPO), die 7,58 bewertet, ohne zunehmende Modellgröße von 7,58 übertroffen wird.
unabhängige Benchmarks bestätigen weiter, dass SPCT kleinere Modelle mit der Leistung von viel größeren Gegenstücken wie 671B-Maßstäben übereinstimmen, indem die Berechnung der Inferenzzeit mit 32 Proben pro Abfrage genutzt wird. Laut dem Papier wird der Vorteil von SPCT deutlicher, wenn die Modelle größer werden, und bietet AI-Entwicklern einen vielversprechenden Weg nach vorne, um den rechenintensiven Weg des Verstärkungslernens durch menschliche Rückkopplung (RLHF) zu vermeiden. Prinzipsynthese, Reaktionsgenerierung, Kritikfilterung und prinzipienhafte Verfeinerung. Jede Stufe baut auf dem letzten auf, um die Qualität und Ausrichtung der Ausgabe des Modells schrittweise zu verbessern. Bei der Behandlung von Aufgaben im Zusammenhang mit Codierungsaufgaben kann das Modell beispielsweise feststellen, dass die Speichereffizienz vor der Laufzeit und der Lesbarkeit vorrangig sein sollte. Diese Prinzipien leiten die nächste Phase, in der das Modell eine anfängliche Reaktion innerhalb eines eingeschränkten Fensters mit 4.096-gequetschten erzeugt. Es bewertet seine Ausgabe anhand der synthetisierten Prinzipien und erzeugt Feedback zur Verbesserung. Diese Kritiken werden in Echtzeit durch ein Meta-Belohnungsmodell (META-RM) in Echtzeit gefiltert, das eine 512-dimensionale Belohnung verwendet, um die Qualität jeder Kritik zu erzielen. Kritik von schlechten Qualität wird verworfen, um die Integrität des Verfeinerungszyklus zu gewährleisten. Mithilfe von Gradienten-basierter Optimierung passt das Modell seine interne Ausrichtungsheuristik an, basierend darauf, wie gut die Kritik der beabsichtigten Antwort entspricht. Diese rekursive Abstimmung ermöglicht es dem Modell, mit hochwertigen Ausgängen iterativ zu konvergieren und sich dynamisch an die Besonderheiten jeder Abfrage anzupassen, ohne externe Interventionen oder Umschulungen zu erfordern. Das GRM-27B-Modell setzt 16 Experten mit nur zwei aktiviert und unterstützt Kontextfenster von bis zu 128.000 Token. Die spekulative Ausführung verbessert die Leistung weiter durch Vorkomputieren potenzieller Kritikpfade und verringert die Latenz während der Inferenz. Bei der Verarbeitung von Einfragestapen zeichnet das System eine Latenz von 1,4 Sekunden und einen Durchsatz von 42 Token pro Sekunde auf. Für Stapelgrößen von acht steigt die Latenz auf 3,1 Sekunden, während Durchsatz-Skalen auf 208 Token pro Sekunde. Das Ergebnis ist eine praktische, kostengünstige Methode, die die Leistungsparität mit viel größeren Modellen beibehält. Das Deepseek-GRM-Modell mit 27 Milliarden Parametern und der Verwendung von SPCT erreicht die Schulungskosten von ca. 12.000 US-Dollar, während ein starker MT-Bench-Wert von 8,35 liefert. Im Gegensatz dazu verursacht Nemotron-4, ein 340B-Parametermodell, Kosten über 1,2 Millionen US-Dollar, um einen MT-Bench-Score von 8,41 zu erreichen. OpenAIs GPT-4O mit 1,8 Billionen Parametern erzielte 8,72 zu schätzungsweise Kosten von 6,3 Mio. USD. Training CostDeepseek-GRM27B8.35 $ 12.000Nemotron-4340B8,41 1,2 Millionen GPT-4O1.8T8.72 6,3 Millionen $
Diese Vergleiche unterstreichen einen zentralen Vorteil der zentralen Auswahl: Es erzielt die Leistungsfraktion. Erforderlich. Erforderlich. Erforderlich. SPCT bietet überzeugende Vorteile für Nachhaltigkeit und Flexibilität. Es beseitigt fast 90 Prozent der menschlichen Annotation, die in der Regel für die Ausrichtung erforderlich sind, wodurch die Arbeit und Zeitinvestitionen drastisch reduziert werden. Darüber hinaus senkt es den Energieverbrauch im Vergleich zu DPO um 73 Prozent und macht es zu einer umweltverantwortlichen Option für die AI-Entwicklung. Traditionelle Ausrichtungsmethoden sind durch die Qualität und den Umfang ihrer Trainingsdatensätze begrenzt, sodass sie langsam an neuartige oder sich entwickelnde Aufgaben angepasst werden. Im Gegensatz dazu ermöglicht die rekursive Inferenzstrategie von SPCT Modellen, Prinzipien im Fliegen zu erzeugen und zu verfeinern, sodass sie unvorhersehbare Eingaben und die Änderung von Zielen ohne Umschulung ermöglichen. Das Deepseek-Team untersucht aktiv die Anwendung von SPCT in Echtzeit-Robotikkontrolle und verteilte Lernsysteme, bei denen die Zusammenarbeit zwischen mehreren Agenten adaptive Ausrichtungsmechanismen erfordert. Am 24. März veröffentlichte Deepseek ein Open-Gewicht-Update seines Deepseek-V3-Modells, um das Gesicht unter einer MIT-Lizenz mit dem Namen Deepseek V3.1 zu umarmen. Das Modell mit einem Gewicht von 641 GB läuft effizient für lokale Hardware.
Entwicklerin Awni Hannun, testet eine quantisierte 4-Bit-Version auf einem 512 GB Apple Mac Studio,
OpenAI reagierte nach seiner Entscheidung im Februar auf all diese Entwicklungen, die Veröffentlichung seines mächtigsten O3-Modells in naher Zukunft zu veröffentlichen. Frontier große Sprachmodelle, die wichtige architektonische Veränderungen einführen und gleichzeitig die Präsenz des Unternehmens auf Verbraucher-Apps und Cloud-Plattformen erweitern.