L’architettura ricorsiva dietro lo SPCT. Sintesi di principi, generazione di risposta, filtro della critica e raffinamento di principi. Ogni fase si basa sull’ultima per migliorare in modo incrementale la qualità e l’allineamento dell’output del modello.
Il processo inizia con la generazione di principi specifici del contesto che utilizzano spunti a catena del pensiero. Ad esempio, quando si gestiscono compiti correlati alla codifica, il modello potrebbe determinare che l’efficienza della memoria dovrebbe avere la priorità rispetto al runtime e alla leggibilità. Questi principi guidano la fase successiva, in cui il modello genera una risposta iniziale all’interno di una finestra vincolata da 4.096.
Una volta prodotta una risposta iniziale, il modello si impegna in autocrique. Valuta la sua produzione rispetto ai principi sintetizzati e genera feedback per il miglioramento. Queste critiche sono filtrate in tempo reale da un modello di meta ricompensa (META-RM), che utilizza una ricompensa 512-dimensionale incorporata per segnare la qualità di ogni critica. Le critiche di scarsa qualità vengono scartate per garantire l’integrità del ciclo di raffinamento.
Il passaggio finale nel ciclo è la raffinatezza del principio. Utilizzando l’ottimizzazione basata su gradiente, il modello regola la sua euristica di allineamento interno in base al modo in cui la critica corrisponde alla risposta prevista. This recursive tuning allows the model to iteratively converge on high-quality outputs, adapting dynamically to the specifics of each query without requiring external intervention or retraining.
Optimizing Inference Through Hardware-Aware Design
SPCT’s efficiency is made possible through a hardware-conscious architecture that includes a Mixture-of-Experts (MoE) impostare. Il modello GRM-27B impiega 16 esperti, con solo due attivati per token, e supporta finestre di contesto fino a 128.000 token. L’esecuzione speculativa migliora ulteriormente le prestazioni precomputando potenziali percorsi di critica, riducendo la latenza durante l’inferenza.
Il benchmarking delle prestazioni dimostra che SPCT ottiene significativi vantaggi di throughput. Durante l’elaborazione di batch a singolo gruppo, il sistema registra una latenza di 1,4 secondi e un throughput di 42 token al secondo. Per dimensioni batch di otto, la latenza aumenta a 3,1 secondi mentre le scale di throughput a 208 token al secondo.
sizelatencythroughput111.4s42 token/secondi 83.1s208 token/seconda
Questa efficiente strategia di deduzione consente SPCT per ridimensionare le capacità di allineamento senza ridimensionamento. Il risultato è un metodo pratico ed economico che mantiene la parità delle prestazioni con modelli molto più grandi.
Costi di benchmarking e prestazioni tra i modelli
Un’analisi comparativa rivela che SPCT riduce significativamente il costo della formazione e la distribuzione di modelli ad alte prestazioni. Il modello DeepSeek-GRM, con 27 miliardi di parametri e utilizzando SPCT, raggiunge un costo di allenamento di circa $ 12.000, fornendo un forte punteggio di MT Bench di 8,35. Al contrario, il nemotron-4, un modello di parametro da 340B, comporta costi di oltre $ 1,2 milioni per raggiungere un punteggio di Bench MT di 8,41. GPT-4o di Openai, con 1,8 trilioni di parametri, segna 8,72 ad un costo stimato di $ 6,3 milioni.
ModelSizeIzeMt-Benchappross. Formazione COSTDEEPSEEK-GRM27B8,35 $ 12.000Nemotron-4340B8,41 $ 1,2 milioni di MILLIGLE-4O1,8T8,72 $ 6,3 milioni Questi confronti sottolineano un vantaggio centrale di SPCT: raggiunge i risultati dello stato-d’art che utilizzano una frazione di risorse computazionali e finanziarie richieste dal bruto in scala. SPCT offre vantaggi convincenti di sostenibilità e flessibilità. Elimina quasi il 90 percento dell’annotazione umana in genere richiesta per l’allineamento, riducendo drasticamente gli investimenti del lavoro e del tempo. Inoltre, riduce il consumo di energia del 73 percento rispetto a DPO, rendendolo un’opzione ecologicamente responsabile per lo sviluppo dell’intelligenza artificiale.
La capacità di SPCT per l’adattamento in tempo reale lo distingue. I metodi di allineamento tradizionali sono limitati dalla qualità e dalla portata dei loro set di dati di addestramento, rendendoli lentamente per adattarsi a compiti nuovi o in evoluzione. Al contrario, la strategia di inferenza ricorsiva di SPCT consente ai modelli di generare e perfezionare i principi al volo, consentendo loro di gestire input imprevedibili e cambiare obiettivi senza riqualificare.
Questa capacità apre nuove frontiere nei domini, come i sistemi come la robot, dove i sistemi devono rispondere agli ambienti dinamici e all’AI multimodale, dove allineamento attraverso il testo, la visione e la visione e Il team di DeepSeek sta esplorando attivamente l’applicazione di SPCT nel controllo della robotica in tempo reale e nei sistemi di apprendimento distribuito, in cui la collaborazione tra più agenti richiede meccanismi di allineamento adattivo.
Il passaggio dalla scala all’architettura
SPCT sembra essere una componente centrale della strategia di Deepseek per ridimensionare le prestazioni AI anziché l’architettura più grande. Il 24 marzo, DeepSeek ha rilasciato un aggiornamento a peso aperto del suo modello DeepSeek-V3 per abbracciare la faccia con una licenza del MIT, soprannominato Deepseek v3.1. Il modello, con un peso di 641 GB, funziona in modo efficiente sull’hardware locale.
Sviluppatore Awni Hannun, testando una versione quantizzata a 4 bit su uno studio Apple Mac da 512 GB, riportato most powerful model I’ve ever run on my laptop.”
The model is available on Hugging Face at this repository for developers seeking to experiment with open weights.
The V3-0324/V3.1 Il modello è costruito su una progettazione di miscela di esperti (MOE), in cui solo circa 37 miliardi di parametri totali di 685 miliardi sono attivi durante ogni singola fase di inferenza. Questa configurazione abilita la generazione di memoria e è aumentata da caratteristiche architettoniche come l’attenzione latente multi-testa (MLA) e la previsione multi-token (MTP), entrambe progettate per migliorare la velocità e l’accuratezza dell’output. Anche i modelli commerciali di DeepSeek.
L’adozione aziendale sotto pressione
L’approccio di Deepseek è già stato validato dall’adozione aziendale. Tencent ha confermato durante la sua chiamata sugli utili del 424 del 424 che aveva integrato i modelli DeepSeek attraverso prodotti come WeChat. Un dirigente di Tencent ha dichiarato:”L’industria e noi, nel settore, stiamo ottenendo una produttività molto più elevata su una formazione di modelli linguistici di grandi dimensioni da GPU esistenti senza aver bisogno di aggiungere ulteriori GPU al ritmo precedentemente previsto.”
La decisione della società di topi di topi di topi. Nel 2023, gli Stati Uniti bloccarono le vendite dei modelli A800 e H800. In risposta, secondo quanto riferito Tencent ha effettuato gli ordini sfusi per l’H20, un chip a basso consumo ancora consentito secondo le regole attuali.
Il precedente modello di DeepSeek, R1, è stato addestrato utilizzando solo 2.048 GPU H800, un numero insolitamente basso per un modello di base delle sue dimensioni. SPCT si allinea ulteriormente con questa strategia consentendo prestazioni migliori senza aumentare il numero di campioni di addestramento o fare affidamento sull’annotazione di preferenze su larga scala.
R2 rapidamente tracciata come rivale
L’emergenza di SPCT è anche strategicamente sintonizzata: il prossimo modello di Deepseek, si sta impegnando al mercato. Come riportato il 26 febbraio, la società ha accelerato la sequenza temporale originale per tenere il passo con i concorrenti. Il modello R1 ha attirato l’attenzione per la sua efficienza, ma non ha avuto aree come ragionamento, precisione multilingue e generazione di codice.
Anche i concorrenti si muovono in modo aggressivo. Microsoft ha integrato il modello O1 di Openai in Copilot senza costi aggiuntivi, e poi subito dopo quello è stato aggiornato a O3-Mini-alto. Il rilascio di Grok 3 di Xai supera GPT-4O. Google a marzo ha quindi presentato Gemini 2.5 Pro Experimental, reclamando le migliori posizioni in vari parametri di riferimento, e poi poco dopo aver sbloccato il libero accesso a questo modello per tutti gli utenti.
Openai ha reagito a tutti questi sviluppi dopo la sua decisione di febbraio di annullare il rilascio del suo più potente modello O3 per fare un rilascio di O3 e O4-Mini nel prossimo futuro, molto probabilmente è preoccupato di cadere più indietro nella razza dell’IA.
Meta nel frattempo ha fatto precipitare il rilascio del suo New Llama 4 Modelli, con Llama 4 Maverick, Llama 4 Maverick. Frontier Big Language Modelli che introducono importanti cambiamenti architettonici espandendo la presenza dell’azienda tra app di consumo e piattaforme cloud.