DeepSeekMath-V2 se potrivește cu OpenAI și Google cu câștigarea medaliei de aur IMO

DeepSeek a zdruncinat din nou stăpânirea exclusivă a giganților tehnologici occidentali asupra raționamentului de elită, lansând un model de IA deschis, care se potrivește cu performanța OpenAI și Google în matematică.

Lansat joi, DeepSeekMath-V2 a obținut un standard de medalie de aur la 2025 International Mathematical Olympian Then. Mathematical Competition, competiția preeminentă de matematică pentru studenții de licență din Statele Unite și Canada, modelul a obținut 118 din 120, depășind cel mai mare scor uman de 90. Spre deosebire de sistemele rivale ascunse în spatele API-urilor, DeepSeek a lansat ponderile în mod public, permițând cercetătorilor să-și inspecteze logica în mod direct.

src=”data:image/svg+xml;nitro-empty-id=MTY0NDo5NDM=-1;base64,PHN2ZyB2aWV3Qm94PSIwIDAgMTI4MCAzMj AiIHdpZHRoPSIxMjgwIiBoZWlnaHQ9IjMyMCIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj48L3N2Zz4=”>

Sosită în timpul întârzierii modelului său emblematic R2 din cauza controalelor la export din SUA, versiunea semnalează rezistență tehnică. Demonstrează că arhitecturile specializate pot oferi rezultate de ultimă generație chiar și atunci când accesul la hardware de ultimă oră este restricționat.

Standardul de aur: înlăturarea monopolului proprietar

DeepSeekMath-V2 a egalat oficial standardul „Medalia de aur” la International 2025, rezolvarea cu succes a problemelor matematice (IMO5). Potrivindu-se cu criteriile de referință proprii stabilite de piatra de referință similară Google DeepMind și performanța OpenAI cu medalia de aur, această performanță echivalează terenul de joc cu sisteme care anterior erau de neatins.

Departe de o simplă actualizare iterativă, această versiune reprezintă o schimbare fundamentală în accesul la raționamentul AI de elită. În timp ce laboratoarele occidentale și-au păstrat cele mai capabile modele matematice în spatele zidurilor „testerilor de încredere” sau a API-urilor scumpe, arhiva de modele pentru cercetarea DeepSeekMath-V2 este disponibilă acum pentru instituțiile de cercetare academice și

. modelul la nivel local, verificându-și capacitățile fără a se baza pe infrastructura cloud care poate fi supusă preocupărilor privind confidențialitatea datelor sau restricțiilor geopolitice.

Dincolo de IMO, modelul a demonstrat o capacitate fără precedent la Putnam Competition, considerată pe scară largă drept cel mai dificil examen de matematică de licență din America de Nord. Evidențiind realizarea, echipa de cercetare DeepSeek a declarat:

„La Putnam 2024, competiția preeminentă de matematică pentru licență, modelul nostru a rezolvat complet 11 din 12 probleme, iar problema rămasă cu erori minore, obținând un scor 118/120 și depășind cel mai mare scor uman de 90, depășind un astfel de plafon uman, depășind un astfel de plafon uman de 90″. sugerează că modelul nu este doar regăsirea dovezilor memorate, ci se implică în soluții noi de probleme. Atingerea 118 din 120 este deosebit de notabilă, având în vedere dificultatea extremă a problemelor, unde scorurile mediane sunt scăzute din punct de vedere istoric.

Analiza independentă a validat în continuare aceste valori interne. Evaluările din subsetul „de bază” al IMO-ProofBench, un etalon dezvoltat de Google DeepMind, arată că modelul ating o rată de succes de 99,0%, confirmând coerența raționamentului într-o gamă largă de domenii matematice.

Verificarea este crucială aici, deoarece domeniul a fost retras recent, susținându-se prea mult de rezultate retrase. GPT-5 care a pretins în mod fals că modelul a rezolvat probleme celebre ale lui Erdő.

Prin eliberând greutățile, DeepSeek a comercializat efectiv o capacitate competitivă majoră care a fost considerată în urmă cu câteva luni pentru Silicon Valley. Clement Delangue, co-fondator și CEO al Hugging Face, a subliniat importanța acestei schimbări într-o postare pe X:

Din câte știu, nu există niciun chatbot sau API care să vă ofere acces la un model cu medalie de aur IMO 2025. Nu numai că asta se schimbă astăzi, dar puteți descărca ponderile cu versiunea open-source Apache 2.0 a @deepseek_ai Math-V2 pe @deepseek_ai Math-V2 pe @huggingface!

Imaginați-vă că dețineți… pic.twitter.com/FbTcg1GcnE

— clem 🤗 (@ClementDelangue) 27 noiembrie 2025

Under the Hood: The ‘Breakth>Historical, The ‘Meakth-Historical’Verification provocarea centrală în IA matematică a fost „halucinația”, în care modelele ajung la răspunsul corect folosind o logică greșită, circulară sau fără sens. În criteriile de referință ale raționamentului cantitativ, modelele pot adesea ghici numărul potrivit fără a înțelege principiile care stau la baza. Echipa de cercetare DeepSeek a explicat problema principală în lucrarea tehnică:

„Multe sarcini matematice, cum ar fi demonstrarea teoremei, necesită o derivare riguroasă pas cu pas, mai degrabă decât răspunsuri numerice, făcând inaplicabile recompensele pentru răspunsul final.”

Pentru a aborda această limitare fundamentală, documentul tehnic detaliază o arhitectură nouă centrată pe „Meta-Verificare”. Spre deosebire de metodele standard de verificare care pur și simplu verifică dacă un răspuns se potrivește cu o referință, abordarea DeepSeek evaluează procesul de verificare în sine.

DeepSeek antrenează un model secundar pentru a judeca calitatea analizei verificatorului, împiedicând modelul primar să „joace” sistemul de recompensă, producând o dovadă convingătoare, dar logic nulă, împotriva acestor recompensatoare. structura recursivă asigură că modelul este recompensat doar pentru rigoarea reală a raționamentului. Evaluând dacă problemele identificate într-o dovadă justifică în mod logic scorul, sistemul impune o consistență logică strictă.

La baza acestei arhitecturi se află o conductă de instruire „Pornire la rece”. În loc să se bazeze pe seturi masive de date externe de dovezi matematice formale, care sunt rare și costisitoare de gestionat, modelul generează în mod iterativ propriile date de antrenament. Descriind metodologia, cercetătorii afirmă:

„Credem că LLM-urile pot fi instruite pentru a identifica problemele de dovezi fără soluții de referință. Un astfel de verificator ar permite un ciclu iterativ de îmbunătățire: (1) utilizarea feedback-ului de verificare pentru a optimiza generarea de dovezi, (2) scalarea calculului de verificare pentru a eticheta automat noi dovezi greu de verificat, folosind acest generator de dovezi îmbunătățite… și (p.3).

„În plus, un verificator de dovezi de încredere ne permite să-i învățăm pe generatorii de dovezi să evalueze dovezile așa cum o face verificatorul. Acest lucru permite unui generator de dovezi să-și rafineze în mod iterativ dovezile până când nu mai poate identifica sau rezolva probleme.”

Prin acest ciclu, modelul își pornește propriile capacități. Pe măsură ce verificatorul devine mai precis, poate identifica erori mai subtile în ieșirea generatorului. În consecință, generatorul este forțat să producă dovezi mai riguroase pentru a satisface verificatorul îmbunătățit.

O astfel de dinamică creează o buclă de feedback pozitiv care scalează performanța fără a necesita o creștere proporțională a datelor etichetate uman. La momentul deducerii, modelul folosește „calcularea în timp de testare la scară”. În loc să genereze un singur răspuns, sistemul generează 64 de dovezi pentru o anumită problemă.

Apoi rulează procesul de verificare pe toți cei 64 de candidați pentru a selecta calea cea mai logică. Trecând sarcina de calcul de la faza de instruire (scalarea parametrilor) la faza de inferență (căutare raționată), această abordare se aliniază cu tendințele mai ample ale industriei către gândirea „Sistemul 2″, în care modelele „gândește” la o problemă înainte de a oferi o soluție.

Reziliență strategică: inovație în ciuda sancțiunilor>

se luptă cu disponibilitatea hardware-ului, versiunea demonstrează o agilitate tehnică semnificativă. Modelul emblematic R2 al lui DeepSeek se confruntă cu întârzieri legate de hardware din cauza defecțiunilor persistente în timpul antrenamentului pe cipurile Ascend interne ale Huawei.

Acest regres a evidențiat dificultatea imensă cu care se confruntă firmele chineze în construirea unei stive de software pe hardware emergent, nedovedit, sub presiunea controalelor exporturilor din SUA. Prin pivotarea către arhitecturi axate pe eficiență, laboratorul demonstrează că poate livra în continuare cercetări de ultimă generație.

DeepSeekMath-V2 este construit pe DeepSeek-V3.2-Exp-Base, demonstrând că mecanismele de atenție reduse introduse în acel model din septembrie sunt pregătite pentru producție.

În octombrie, compania a lansat tehnici similare de eficiență. pentru a comprima procesarea documentelor de zece ori.

Disponibilitatea open-weight pune presiune semnificativă asupra laboratoarelor occidentale pentru a-și justifica abordarea cu sursă închisă.

Pe măsură ce „șanțul” capacității de raționament pare să se evapore, argumentul că siguranța necesită păstrarea acestor modele sub cheie devine mai greu de susținut atunci când capacități comparabile sunt disponibile în mod gratuit.

Lansarea sugerează că modelele specializate, extrem de optimizate pot oferi o cale viabilă înainte chiar și atunci când accesul la grupuri masive de GPU-uri Nvidia este restricționat.

Concentrându-se pe inovații algoritmice precum Meta-Verificarea și atenția redusă, DeepSeek își creează o nișă competitivă care se bazează mai puțin pe scara forței brute și mai mult pe arhitectură.

ingen.

DeepSeekMath-V2 se potrivește cu OpenAI și Google cu câștigarea medaliei de aur IMO

Published by All Things Windows on November 28, 2025

Standardul de aur: înlăturarea monopolului proprietar

Reziliență strategică: inovație în ciuda sancțiunilor>

IT Info

Servicii de scriere de eseuri de top: un ghid cuprinzător

IT Info

Cum să puneți inventarul de păstrare în Minecraft

IT Info

Care este diferența dintre un televizor inteligent și un televizor Roku?

DeepSeekMath-V2 se potrivește cu OpenAI și Google cu câștigarea medaliei de aur IMO

Published by All Things Windows on November 28, 2025

Standardul de aur: înlăturarea monopolului proprietar

Reziliență strategică: inovație în ciuda sancțiunilor>

Related Posts

IT Info

Servicii de scriere de eseuri de top: un ghid cuprinzător

IT Info

Cum să puneți inventarul de păstrare în Minecraft

IT Info

Care este diferența dintre un televizor inteligent și un televizor Roku?