Deepseek satsar på att anpassade AI-modeller inte behöver tränas oändligt-de behöver bättre sätt att resonera genom sina utgångar när de genererar dem. I samarbete med Tsinghua University har företaget introducerat en ny metod som heter Self-Principled Critique Tuning (SPCT) introducerades en generativ belöningsmodelleringsteknik utformad för att fungera under slutsatsen snarare än att kräva storskalig preferensdata under träning.
SPCT i en Forskningsdokument publicerad den 4 april och testades i en modell som heter Deepseek-GRM-27B. Resultaten är slående.
snarare än beroende på statiska mänskliga anteckningar gör SPCT modeller att förfina sina utgångar dynamiskt med hjälp av självgenererade principer och kritisera slingor under slutsatser. The result: reduced costs, better scalability, and state-of-the-art performance with smaller models.
At its core, SPCT is an inference-first approach that achieves high-quality alignment by optimizing how models reason about their own responses. Deepseek-GRM-GRM-modellen med 27 miljarder parameter med hjälp av SPCT uppnår en MT-Bench-poäng på 8,35-övergångsmodeller tränade med direkt preferensoptimering (DPO), som får 7,58-utan ökande modellstorlek.
Oberoende riktmärken bekräftar vidare att SPCT gör det möjligt för mindre modeller att matcha prestandan för mycket större motsvarigheter, till exempel 671B-skala modeller, genom att utnyttja datorberäkning med 32 prover per fråga.
Denna anpassningsprocess är utformad för att skala med modellstorlek. Enligt uppsatsen blir SPCT: s fördel tydligare när modeller blir större och erbjuder en lovande väg framåt för AI-utvecklare som vill undvika den beräkningsintensiva vägen för förstärkningslärande från mänsklig feedback (RLHF). Princip syntes, svargenerering, kritikfiltrering och principförfining. Varje steg bygger på det sista för att stegvis förbättra kvaliteten och justeringen av modellens utgång.
Processen börjar med att generera kontextspecifika principer med hjälp av Thought-uppmaning. Till exempel, när han hanterar kodningsrelaterade uppgifter, kan modellen bestämma att minneseffektiviteten bör prioriteras framför runtime och läsbarhet. Dessa principer leder nästa fas, där modellen genererar ett första svar inom ett begränsat 4 096-talat fönster.
När ett första svar har producerats, engagerar modellen självkritik. Den utvärderar sin produktion mot de syntetiserade principerna och genererar feedback för förbättring. Dessa kritiker filtreras i realtid av en META-belöningsmodell (META-RM), som använder en 512-dimensionell belöning inbäddning för att få kvaliteten på varje kritik. Kritik av dålig kvalitet kasseras för att säkerställa integriteten i förfiningcykeln.
Det sista steget i slingan är principförfining. Med hjälp av gradientbaserad optimering justerar modellen sin interna justerings heuristik baserat på hur väl kritiken matchar det avsedda svaret. This recursive tuning allows the model to iteratively converge on high-quality outputs, adapting dynamically to the specifics of each query without requiring external intervention or retraining.
Optimizing Inference Through Hardware-Aware Design
SPCT’s efficiency is made possible through a hardware-conscious architecture that includes a Mixture-of-Experts (MoE) setup. GRM-27B-modellen använder 16 experter, med endast två aktiverade per token, och stöder kontextfönster på upp till 128 000 symboler. Spekulativ exekvering förbättrar ytterligare prestanda genom att predra om potentiella kritikvägar, vilket minskar latensen under slutsatsen.
Benchmarking av prestanda visar att SPCT uppnår betydande genomströmningsfördelar. Vid bearbetning av enklassiga partier registrerar systemet en latens på 1,4 sekunder och en genomströmning på 42 tokens per sekund. För satsstorlekar på åtta ökar latensen till 3,1 sekunder medan genomströmning skalas till 208 tokens per sekund.
Denna effektiva inferensstrategi gör att SPCT till skalanpassning utan skalning. Resultatet är en praktisk, kostnadseffektiv metod som upprätthåller prestationsparitet med mycket större modeller.
benchmarking kostnader och prestanda över modeller
En jämförande analys avslöjar som SPCT avsevärt minskar kostnaderna för utbildning och distribution av högpresterande modeller. Deepseek-GRM-modellen, med 27 miljarder parametrar och med hjälp av SPCT, uppnår en träningskostnad på cirka 12 000 dollar samtidigt som en stark MT-bänk poäng på 8,35. Däremot har Nemotron-4, en 340B-parametermodell, kostnader över 1,2 miljoner dollar för att nå en MT-bänk-poäng på 8,41. OpenAI: s GPT-4O, med 1,8 biljoner parametrar, poäng 8,72 till en uppskattad kostnad på 6,3 miljoner dollar.
Dessa jämförelser under en central fördel med SPCT: It Achieves toppmoderna resultat med hjälp av en fraktion av beräkningen och beräkningen och finansiella resurser som krävs av SPCT: it Achieves state-of-the-resultat med hjälp av en fraktion av beräkningen och beräkningen och finansiella resurser som krävs av SPCT: it Achieves state-of-the-resultat med hjälp av en fraktion av beräkningen och beräkningen och finansiella resurser som krävs av SPCT: it Achieves state-of-the-resultat med hjälp av en fraktion av beräkningen och beräkningen och finansiella resurser som krävs av SPCT. Erbjuder övertygande fördelar inom hållbarhet och flexibilitet. Det eliminerar nästan 90 procent av den mänskliga anteckningen som vanligtvis krävs för anpassning, drastiskt minskar arbetskrafts-och tidsinvesteringar. Dessutom sänker det energiförbrukningen med 73 procent jämfört med DPO, vilket gör det till ett miljöansvarigt alternativ för AI-utveckling.
SPCT: s kapacitet för realtidsanpassning skiljer också den. Traditionella justeringsmetoder begränsas av kvaliteten och omfattningen av deras träningsdatasätt, vilket gör dem långsamma för att anpassa sig till nya eller utvecklande uppgifter. In contrast, SPCT’s recursive inference strategy enables models to generate and refine principles on the fly, allowing them to handle unpredictable inputs and changing objectives without retraining.
This capability opens new frontiers in domains such as robotics, where systems must respond to dynamic environments, and multimodal AI, where alignment across text, vision, and sensor data is essential. Deepseek-teamet undersöker aktivt SPCT: s tillämpning i realtids robotikkontroll och distribuerade inlärningssystem, där samarbete mellan flera agenter kräver adaptiva justeringsmekanismer.
skiftande från skala till arkitektur
SPCT verkar vara en central komponent i Deepseeks strategi för skalning av SMARTERTHET THIE STOR THAR THORER STRA STRA MODEMMODES. Den 24 mars släppte Deepseek en öppen viktuppdatering av sin Deepseek-V3-modell för att krama Face under en MIT-licens, kallad Deepseek v3.1. Modellen, som väger in på 641 GB, körs effektivt på lokal hårdvara.
utvecklaren Awni Hannun, testar en kvantiserad 4-bitarsversion på en 512 GB Apple Mac Studio, rapporterad
Modellen är tillgänglig på att krama Face på detta arkiv för utvecklare som söker experiment med öppet weSights. Byggt på en blandning av experter (MOE)-design, där endast cirka 37 miljarder av dess totala 685 miljarder parametrar är aktiva under varje enskilt inferenssteg. This setup enables memory-efficient generation and is augmented by architectural features like Multi-Head Latent Attention (MLA) and Multi-Token Prediction (MTP), both designed to improve output speed and accuracy.
The DeepSeek-GRM-27B model used to test SPCT shares architectural similarities with V3-0324, suggesting that inference-time alignment could eventually be available in publicly released versions of Deepseeks kommersiella modeller också.
Enterprise Adoption under Pressure
Deepseeks strategi valideras redan genom företagets antagande. Tencent bekräftade under sina intäkter från Q4 2024 att det hade integrerat Deepseek-modeller över produkter som WeChat. A Tencent executive stated: “The industry and we, within the industry, are getting much higher productivity on a large language model training from existing GPUs without needing to add additional GPUs at the pace previously expected.”
The company’s decision to shift from GPU-hungry infrastructure toward optimized inference models comes at a time when U.S. export controls have restricted the availability of Nvidia’s top-tier AI chips in China. År 2023 blockerade den amerikanska försäljningen av A800-och H800-modellerna. Som svar gjorde Tencent enligt uppgift bulkorder för H20, ett lägre drivet chip som fortfarande är tillåtet enligt nuvarande regler.
Deepseeks tidigare modell, R1, tränades med endast 2 048 H800 GPU: er-ett ovanligt lågt antal för en grundmodell av sin storlek. SPCT anpassar sig vidare till denna strategi genom att möjliggöra bättre prestanda utan att öka antalet träningsprover eller förlita sig på storskalig preferensanteckning.
R2 Snabbspårad som rivaler överskrider
SPCT: s uppkomst är också strategiskt Timed: DeepSeeks nästa modell, R2, är att rusas. Som rapporterats den 26 februari påskyndade företaget sin ursprungliga maj-tidslinje för att hålla jämna steg med rivaler. R1-modellen hade uppmärksammat sin effektivitet men kom till kort i områden som resonemang, flerspråkig noggrannhet och kodgenerering.
Konkurrenter rör sig också aggressivt. Microsoft Integrated OpenAI: s O1-modell i copilot utan extra kostnad, och sedan strax efter den uppgraderade till O3-mini-hög. XAI: s släppta Grok 3 som överträffar GPT-4O. Google i mars avslöjade sedan Gemini 2.5 Pro Experimental, återvinnande topppositioner i olika riktmärken, och sedan kort efter att ha låst upp gratis tillgång till denna modell för alla användare.
ouenai reagerade på alla dessa utvecklingar efter sitt beslut i februari att avbryta utgivningen av sin mest kraftfulla O3-modell för att gå för en frigöring av O3 och O4-mini inom en nära framtid, troligen att vara upptagen för att falla längre bakom i ai-loppet.
Meta under tiden har skyndat utgivningen av sin nya LLAMA 4-modeller denna helg, med LL-lopp. Frontier stora språkmodeller som introducerar stora arkitektoniska förändringar samtidigt som företagets närvaro utökar över konsumentappar och molnplattformar.