Chinesische AI Lab Deepseek hat Deepseek-Prover-V2-671B veröffentlicht, ein außergewöhnlich großes Sprachmodell, das auf mathematische Theoreme beweist, das es auf
Dieser Effizienzfokus wurde zuvor hervorgehoben, als Deepseek Open Sourced Infrastruktur-Tools wie das BLASHMLA Achtung der Aufmerksamkeit der TEAPSEEK im April 2024. Ausgebildet auf einem erheblichen Cluster von 2048 Nvidia H800 GPUs, laut seinem technischer Bericht .
Deepseek-Prover-V2-671B ist kein allgemeiner Chatbot, sondern ein hochspezialisiertes System, das sich mit dem formellen Theorem auswirkt. Lean 4 ist ein interaktives Tool, mit dem mathematische Definitionen und Beweise formalisiert und ihre Richtigkeit rechnerisch überprüft werden. Deepseek-Prover-V2 interagiert mit diesem Framework und erzeugt oder schlägt nach Beweisschritten in der Lean 4-Syntax, die dann von der Lean 4-Umgebung selbst überprüft werden, um logische Klanglosigkeit zu gewährleisten. Diese Synergie zielt darauf ab, die komplexe Aufgabe der formalen Überprüfung besser überschaubar zu machen. Die MEE-Architektur (Mischung der Experten)-eine Entwurfsrouting-Eingabe nur zu einer Teilmenge von Parametern-sind jedoch nur eine Bruchschaft während der Inferenz aktiv, die Skalierung mit Rechenkosten ausbalancieren. Dies baut auf den früheren Arbeiten von Deepseek auf, einschließlich des 7B-Parameters Deepseek-Prover-V1.5 (detailliert August 2024), die mit einem Eviktivieren von einem Eviken-Lernfeedback (RLPAF) ein Eviktentechniken verwendet wurden. href=”https://arxiv.org/abs/2405.14333″target=”_ leer”> Prover-Arbeit (Mai 2024).
Dieser Ansatz unterscheidet sich von anderen neuesten hochkarätigen Mathematik-AI-Systemen. Alphageometry2 von Google Deepmind, das kürzlich menschliche Goldmedaillengewinner über internationale Geometrieprobleme für mathematische Olympiade (IMO) übertroffen hat, verwendet eine hybride Architektur, die ein feinstimmiges Gemini-Sprachmodell mit einer dedizierten symbolischen Argumentationsmotor (DDAR) kombiniert.
Alphageometrie2 stützte sich auch stark auf die Generierung von großen Mengen an synthetischen Trainingsdaten (über 300 Millionen Theoreme und Proofs), um seine Leistung bei Geometrieproblemen im Wettbewerbsstil zu erzielen. Deepseeks frühere Prover-Modelle ( v1.5 und state-owned China Mobile and potentially integrates tracking tools from ByteDance and Tencent, Unter Berufung bei der Forschung des Cybersicherheitsunternehmens Foloot Security.
The committee also alleged DeepSeek acquired “tens of thousands”of advanced chips, potentially violating US export laws, and requested NVIDIA gibt Vertriebsinformationen an an bestimmte asiatische Nationen, um Endbenutzer zu verfolgen. Darüber hinaus zeigte der Bericht Bedenken hinsichtlich des geistigen Eigentums, in dem Aussagen von OpenAI und Erkenntnissen von