DeepSeek ha nuovamente infranto la presa esclusiva dei giganti della tecnologia occidentale sul ragionamento d’élite, rilasciando un modello di intelligenza artificiale a peso aperto che eguaglia le prestazioni di OpenAI e Google in matematica.

Lanciato giovedì, DeepSeekMath-V2 ha ottenuto una medaglia d’oro alle Olimpiadi internazionali della matematica (IMO) del 2025.

Nella William Lowell Putnam Mathematical Competition, la principale competizione di matematica per studenti universitari universitari in negli Stati Uniti e in Canada, il modello ha ottenuto un punteggio di 118 su 120, superando il punteggio massimo umano di 90. A differenza dei sistemi rivali nascosti dietro le API, DeepSeek ha reso pubblici i pesi, consentendo ai ricercatori di ispezionarne direttamente la logica.

Il comunicato, arrivato in concomitanza con il ritardo del suo modello di punta R2 a causa dei controlli sulle esportazioni statunitensi, segnala la resilienza tecnica. Dimostra che le architetture specializzate possono fornire risultati all’avanguardia anche quando l’accesso a hardware all’avanguardia è limitato.

Lo standard d’oro: rompere il monopolio proprietario

DeepSeekMath-V2 ha ufficialmente raggiunto lo standard della”medaglia d’oro”alle Olimpiadi internazionali della matematica (IMO) del 2025, risolvendo con successo 5 problemi su 6. In linea con i parametri di riferimento proprietari stabiliti dal traguardo simile di Google DeepMind e con le prestazioni della medaglia d’oro di OpenAI, queste prestazioni livellano il campo di gioco con sistemi che prima erano intoccabili.

Lungi dall’essere un semplice aggiornamento iterativo, questa versione rappresenta un cambiamento fondamentale nell’accesso al ragionamento dell’IA d’élite. Mentre i laboratori occidentali hanno mantenuto i loro modelli matematici più efficaci dietro muri di”trusted tester”o API costose, l’archivio dei modelli per DeepSeekMath-V2 è disponibile per il download immediato.

Istituzioni accademiche e ricercatori aziendali possono ora eseguire il modello localmente, verificandone le capacità senza fare affidamento sull’infrastruttura cloud che potrebbe essere soggetto a preoccupazioni sulla privacy dei dati o restrizioni geopolitiche.

Al di là dell’IMO, il modello ha dimostrato capacità senza precedenti nel concorso Putnam, ampiamente considerato come l’esame di matematica universitario più difficile del Nord America. Evidenziando il risultato, il team di ricerca di DeepSeek ha dichiarato:

“Nel Putnam 2024, la principale competizione di matematica universitaria, il nostro modello ha risolto completamente 11 problemi su 12 e il problema rimanente con errori minori, ottenendo un punteggio di 118/120 e superando il punteggio umano più alto di 90.”

Il superamento del limite umano su un esame così rigoroso suggerisce che il modello non sta semplicemente recuperando dimostrazioni memorizzate ma è coinvolgente nella risoluzione di problemi innovativi. Il raggiungimento di 118 su 120 è particolarmente degno di nota data l’estrema difficoltà dei problemi, dove i punteggi medi sono storicamente bassi.

Un’analisi indipendente ha ulteriormente convalidato questi parametri interni. Le valutazioni sul sottoinsieme”Basic”dell’IMO-ProofBench, un benchmark sviluppato da Google DeepMind, mostrano che il modello raggiunge un tasso di successo del 99,0%, confermando la coerenza del suo ragionamento in un’ampia gamma di domini matematici.

La verifica è cruciale qui, poiché il campo è stato recentemente afflitto da risultati sovrastimati, come un’affermazione ritirata riguardante GPT-5 che affermava falsamente che il modello aveva risolto famosi Problemi di Erdős.

Con rilasciando i pesi, DeepSeek ha effettivamente mercificato una capacità che solo mesi fa era considerata un importante fossato competitivo per la Silicon Valley. Clement Delangue, co-fondatore e CEO di Hugging Face, ha sottolineato l’importanza di questo cambiamento in un post su X:

Per quanto ne so, non esiste alcun chatbot o API che dia accesso a un modello da medaglia d’oro IMO 2025. Non solo questo cambia oggi, ma puoi scaricare i pesi con la versione open source Apache 2.0 di @deepseek_ai Math-V2 su @huggingface!

Immagina di possedere il… pic.twitter.com/FbTcg1GcnE

— clem 🤗 (@ClementDelangue) 27 novembre 2025

Sotto il cofano: la svolta della”meta-verifica”

Storicamente, la sfida centrale nell’intelligenza artificiale matematica è stata l'”allucinazione”, in cui i modelli arrivano alla risposta corretta utilizzando una logica errata, circolare o priva di senso. Nei benchmark di ragionamento quantitativo, i modelli spesso riescono a indovinare il numero giusto senza comprendere i principi sottostanti. Il team di ricerca di DeepSeek ha spiegato il problema principale nel whitepaper tecnico:

“Molti compiti matematici come la dimostrazione di teoremi richiedono una rigorosa derivazione passo passo piuttosto che risposte numeriche, rendendo inapplicabili i premi per la risposta finale.”

Per affrontare questa limitazione fondamentale, il documento tecnico descrive in dettaglio una nuova architettura incentrata sulla”meta-verifica”. A differenza dei metodi di verifica standard che controllano semplicemente se una risposta corrisponde a un riferimento, l’approccio di DeepSeek valuta il processo di verifica stesso.

DeepSeek addestra un modello secondario per giudicare la qualità dell’analisi del verificatore, impedendo al modello primario di”ingannare”il sistema di ricompensa producendo prove convincenti ma logicamente vuote.

Creando una salvaguardia contro l’hacking della ricompensa, questa struttura ricorsiva garantisce che il modello venga ricompensato solo per un autentico rigore di ragionamento. Valutando se i problemi identificati in una prova giustificano logicamente il punteggio, il sistema impone una rigorosa coerenza logica.

Alla base di questa architettura c’è una pipeline di formazione”Cold Start”. Invece di fare affidamento su enormi set di dati esterni di prove matematiche formali, che sono scarse e costose da curare, il modello genera in modo iterativo i propri dati di addestramento. Descrivendo la metodologia, i ricercatori affermano:

“Crediamo che i LLM possano essere addestrati a identificare problemi di prova senza soluzioni di riferimento. Un tale verificatore consentirebbe un ciclo di miglioramento iterativo: (1) utilizzando il feedback di verifica per ottimizzare la generazione di prove, (2) ridimensionando il calcolo di verifica per etichettare automaticamente nuove prove difficili da verificare… e (3) utilizzando questo verificatore avanzato per ottimizzare ulteriormente la generazione di prove.”

“Inoltre, un verificatore di prove affidabile ci consente di insegnare la prova generatori di prove come fa il verificatore. Ciò consente a un generatore di prove di perfezionare iterativamente le proprie prove fino a quando non è più in grado di identificare o risolvere eventuali problemi.”

Attraverso questo ciclo, il modello avvia le proprie capacità. Man mano che il verificatore diventa più accurato, può identificare errori più sottili nell’output del generatore. Di conseguenza, il generatore è costretto a produrre prove più rigorose per soddisfare il verificatore avanzato.

Tali dinamiche creano un ciclo di feedback positivo che ridimensiona le prestazioni senza richiedere un aumento proporzionale dei dati etichettati dall’uomo. Al momento dell’inferenza, il modello utilizza il”calcolo del tempo di test in scala”. Invece di generare una singola risposta, il sistema genera 64 prove candidate per un dato problema.

Quindi esegue il processo di verifica su tutti i 64 candidati per selezionare il percorso logicamente più valido. Spostando l’onere computazionale dalla fase di formazione (scaling dei parametri) alla fase di inferenza (ricerca ragionativa), questo approccio si allinea con le tendenze più ampie del settore verso il pensiero del”Sistema 2″in cui i modelli”meditano”su un problema prima di fornire una soluzione.

Resilienza strategica: innovazione nonostante le sanzioni

Fungendo da contro-narrativa critica alle recenti difficoltà dell’azienda con la disponibilità dell’hardware, la versione dimostra un’importanza significativa agilità tecnica. Il modello R2 di punta di DeepSeek deve affrontare ritardi legati all’hardware a causa di guasti persistenti durante l’addestramento sui chip Ascend domestici di Huawei.

Questa battuta d’arresto ha evidenziato l’immensa difficoltà che le aziende cinesi devono affrontare nel costruire uno stack software su hardware emergente e non testato sotto la pressione dei controlli sulle esportazioni statunitensi. Puntando su architetture incentrate sull’efficienza, il laboratorio sta dimostrando di essere ancora in grado di fornire ricerche all’avanguardia.

DeepSeekMath-V2 è basato su DeepSeek-V3.2-Exp-Base, dimostrando che i meccanismi di attenzione ridotta introdotti in quel modello da settembre sono pronti per la produzione.

A ottobre, l’azienda ha lanciato il suo strumento di riconoscimento ottico dei caratteri, che utilizzava tecniche di efficienza simili per comprimere di dieci volte l’elaborazione dei documenti.

La disponibilità open-weight esercita una pressione significativa sui laboratori occidentali affinché giustifichino il loro approccio closed-source.

Mentre il”fossato”della capacità di ragionamento sembra evaporare, l’argomentazione secondo cui la sicurezza richiede di tenere questi modelli sotto chiave diventa più difficile da sostenere quando capacità comparabili sono disponibili gratuitamente su Hugging Face.

Per il settore dell’intelligenza artificiale in generale, questa versione suggerisce che modelli specializzati e altamente ottimizzati possono offrire un percorso praticabile anche quando l’accesso a enormi cluster di GPU Nvidia è difficile. limitato.

Concentrandosi su innovazioni algoritmiche come la meta-verifica e scarsa attenzione, DeepSeek si sta ritagliando una nicchia competitiva che si basa meno sulla scala della forza bruta e più sull’ingegnosità dell’architettura.

Categories: IT Info