DeepSeek sta scommettendo che i modelli AI allineati non devono essere addestrati all’infinito: hanno bisogno di modi migliori per ragionare attraverso i loro risultati mentre li generano. In collaborazione con l’Università di Tsinghua, la società ha introdotto un nuovo metodo chiamato Tuning di critica auto-principi (SPCT), una tecnica di modellazione di ricompensa generativa progettata per funzionare durante l’inferenza anziché richiedere dati di preferenza su larga scala durante l’addestramento.

SPCT è stata introdotta in documento di ricerca pubblicato il 4 aprile e testato in un modello chiamato Deepseek-Grm-27b. I risultati sono sorprendenti.

Invece di dipendere dalle annotazioni umane statiche, SPCT consente ai modelli di perfezionare le loro uscite in modo dinamico usando principi auto-generati e loop di critica durante l’inferenza. The result: reduced costs, better scalability, and state-of-the-art performance with smaller models.

At its core, SPCT is an inference-first approach that achieves high-quality alignment by optimizing how models reason about their own responses. Il modello DeepSeek-GRM di 27 miliardi di parametri che utilizza SPCT raggiunge un punteggio di Bench MT di 8,35, i modelli di superamento addestrati con l’ottimizzazione diretta delle preferenze (DPO), che segna 7,58-non si sta aumentando le dimensioni del modello.

Benchmark indipendenti confermano inoltre che SPCT consente ai modelli più piccoli di abbinare le prestazioni di controparti molto più grandi, come i modelli su scala 671b, sfruttando il calcolo del tempo di inferenza con 32 campioni per query.

Questo processo di allineamento è progettato per scalare con dimensioni del modello. Secondo il documento, il vantaggio di SPCT diventa più evidente man mano che i modelli diventano più grandi, offrendo un percorso promettente per gli sviluppatori di intelligenza artificiale che cercano di evitare la via ad alta intensità di calcolo dell’apprendimento del rinforzo dal feedback umano (RLHF).

L’architettura ricorsiva dietro lo SPCT. Sintesi di principi, generazione di risposta, filtro della critica e raffinamento di principi. Ogni fase si basa sull’ultima per migliorare in modo incrementale la qualità e l’allineamento dell’output del modello.

Il processo inizia con la generazione di principi specifici del contesto che utilizzano spunti a catena del pensiero. Ad esempio, quando si gestiscono compiti correlati alla codifica, il modello potrebbe determinare che l’efficienza della memoria dovrebbe avere la priorità rispetto al runtime e alla leggibilità. Questi principi guidano la fase successiva, in cui il modello genera una risposta iniziale all’interno di una finestra vincolata da 4.096.

Una volta prodotta una risposta iniziale, il modello si impegna in autocrique. Valuta la sua produzione rispetto ai principi sintetizzati e genera feedback per il miglioramento. Queste critiche sono filtrate in tempo reale da un modello di meta ricompensa (META-RM), che utilizza una ricompensa 512-dimensionale incorporata per segnare la qualità di ogni critica. Le critiche di scarsa qualità vengono scartate per garantire l’integrità del ciclo di raffinamento.

Il passaggio finale nel ciclo è la raffinatezza del principio. Utilizzando l’ottimizzazione basata su gradiente, il modello regola la sua euristica di allineamento interno in base al modo in cui la critica corrisponde alla risposta prevista. This recursive tuning allows the model to iteratively converge on high-quality outputs, adapting dynamically to the specifics of each query without requiring external intervention or retraining.

Optimizing Inference Through Hardware-Aware Design

SPCT’s efficiency is made possible through a hardware-conscious architecture that includes a Mixture-of-Experts (MoE) impostare. Il modello GRM-27B impiega 16 esperti, con solo due attivati ​​per token, e supporta finestre di contesto fino a 128.000 token. L’esecuzione speculativa migliora ulteriormente le prestazioni precomputando potenziali percorsi di critica, riducendo la latenza durante l’inferenza.

Il benchmarking delle prestazioni dimostra che SPCT ottiene significativi vantaggi di throughput. Durante l’elaborazione di batch a singolo gruppo, il sistema registra una latenza di 1,4 secondi e un throughput di 42 token al secondo. Per dimensioni batch di otto, la latenza aumenta a 3,1 secondi mentre le scale di throughput a 208 token al secondo.

sizelatencythroughput111.4s42 token/secondi 83.1s208 token/seconda

Questa efficiente strategia di deduzione consente SPCT per ridimensionare le capacità di allineamento senza ridimensionamento. Il risultato è un metodo pratico ed economico che mantiene la parità delle prestazioni con modelli molto più grandi.

Costi di benchmarking e prestazioni tra i modelli

Un’analisi comparativa rivela che SPCT riduce significativamente il costo della formazione e la distribuzione di modelli ad alte prestazioni. Il modello DeepSeek-GRM, con 27 miliardi di parametri e utilizzando SPCT, raggiunge un costo di allenamento di circa $ 12.000, fornendo un forte punteggio di MT Bench di 8,35. Al contrario, il nemotron-4, un modello di parametro da 340B, comporta costi di oltre $ 1,2 milioni per raggiungere un punteggio di Bench MT di 8,41. GPT-4o di Openai, con 1,8 trilioni di parametri, segna 8,72 ad un costo stimato di $ 6,3 milioni.

ModelSizeIzeMt-Benchappross. Formazione COSTDEEPSEEK-GRM27B8,35 $ 12.000Nemotron-4340B8,41 $ 1,2 milioni di MILLIGLE-4O1,8T8,72 $ 6,3 milioni Questi confronti sottolineano un vantaggio centrale di SPCT: raggiunge i risultati dello stato-d’art che utilizzano una frazione di risorse computazionali e finanziarie richieste dal bruto in scala. SPCT offre vantaggi convincenti di sostenibilità e flessibilità. Elimina quasi il 90 percento dell’annotazione umana in genere richiesta per l’allineamento, riducendo drasticamente gli investimenti del lavoro e del tempo. Inoltre, riduce il consumo di energia del 73 percento rispetto a DPO, rendendolo un’opzione ecologicamente responsabile per lo sviluppo dell’intelligenza artificiale.

La capacità di SPCT per l’adattamento in tempo reale lo distingue. I metodi di allineamento tradizionali sono limitati dalla qualità e dalla portata dei loro set di dati di addestramento, rendendoli lentamente per adattarsi a compiti nuovi o in evoluzione. Al contrario, la strategia di inferenza ricorsiva di SPCT consente ai modelli di generare e perfezionare i principi al volo, consentendo loro di gestire input imprevedibili e cambiare obiettivi senza riqualificare.

Questa capacità apre nuove frontiere nei domini, come i sistemi come la robot, dove i sistemi devono rispondere agli ambienti dinamici e all’AI multimodale, dove allineamento attraverso il testo, la visione e la visione e Il team di DeepSeek sta esplorando attivamente l’applicazione di SPCT nel controllo della robotica in tempo reale e nei sistemi di apprendimento distribuito, in cui la collaborazione tra più agenti richiede meccanismi di allineamento adattivo.

Il passaggio dalla scala all’architettura

SPCT sembra essere una componente centrale della strategia di Deepseek per ridimensionare le prestazioni AI anziché l’architettura più grande. Il 24 marzo, DeepSeek ha rilasciato un aggiornamento a peso aperto del suo modello DeepSeek-V3 per abbracciare la faccia con una licenza del MIT, soprannominato Deepseek v3.1. Il modello, con un peso di 641 GB, funziona in modo efficiente sull’hardware locale.

Sviluppatore Awni Hannun, testando una versione quantizzata a 4 bit su uno studio Apple Mac da 512 GB, riportato most powerful model I’ve ever run on my laptop.”

The model is available on Hugging Face at this repository for developers seeking to experiment with open weights.

The V3-0324/V3.1 Il modello è costruito su una progettazione di miscela di esperti (MOE), in cui solo circa 37 miliardi di parametri totali di 685 miliardi sono attivi durante ogni singola fase di inferenza. Questa configurazione abilita la generazione di memoria e è aumentata da caratteristiche architettoniche come l’attenzione latente multi-testa (MLA) e la previsione multi-token (MTP), entrambe progettate per migliorare la velocità e l’accuratezza dell’output. Anche i modelli commerciali di DeepSeek.

L’adozione aziendale sotto pressione

L’approccio di Deepseek è già stato validato dall’adozione aziendale. Tencent ha confermato durante la sua chiamata sugli utili del 424 del 424 che aveva integrato i modelli DeepSeek attraverso prodotti come WeChat. Un dirigente di Tencent ha dichiarato:”L’industria e noi, nel settore, stiamo ottenendo una produttività molto più elevata su una formazione di modelli linguistici di grandi dimensioni da GPU esistenti senza aver bisogno di aggiungere ulteriori GPU al ritmo precedentemente previsto.”

La decisione della società di topi di topi di topi. Nel 2023, gli Stati Uniti bloccarono le vendite dei modelli A800 e H800. In risposta, secondo quanto riferito Tencent ha effettuato gli ordini sfusi per l’H20, un chip a basso consumo ancora consentito secondo le regole attuali.

Il precedente modello di DeepSeek, R1, è stato addestrato utilizzando solo 2.048 GPU H800, un numero insolitamente basso per un modello di base delle sue dimensioni. SPCT si allinea ulteriormente con questa strategia consentendo prestazioni migliori senza aumentare il numero di campioni di addestramento o fare affidamento sull’annotazione di preferenze su larga scala.

R2 rapidamente tracciata come rivale

L’emergenza di SPCT è anche strategicamente sintonizzata: il prossimo modello di Deepseek, si sta impegnando al mercato. Come riportato il 26 febbraio, la società ha accelerato la sequenza temporale originale per tenere il passo con i concorrenti. Il modello R1 ha attirato l’attenzione per la sua efficienza, ma non ha avuto aree come ragionamento, precisione multilingue e generazione di codice.

Anche i concorrenti si muovono in modo aggressivo. Microsoft ha integrato il modello O1 di Openai in Copilot senza costi aggiuntivi, e poi subito dopo quello è stato aggiornato a O3-Mini-alto. Il rilascio di Grok 3 di Xai supera GPT-4O. Google a marzo ha quindi presentato Gemini 2.5 Pro Experimental, reclamando le migliori posizioni in vari parametri di riferimento, e poi poco dopo aver sbloccato il libero accesso a questo modello per tutti gli utenti. 

Openai ha reagito a tutti questi sviluppi dopo la sua decisione di febbraio di annullare il rilascio del suo più potente modello O3 per fare un rilascio di O3 e O4-Mini nel prossimo futuro, molto probabilmente è preoccupato di cadere più indietro nella razza dell’IA.

Meta nel frattempo ha fatto precipitare il rilascio del suo New Llama 4 Modelli, con Llama 4 Maverick, Llama 4 Maverick. Frontier Big Language Modelli che introducono importanti cambiamenti architettonici espandendo la presenza dell’azienda tra app di consumo e piattaforme cloud.

Categories: IT Info