Deepseek po bën bast që modelet e AI të përafruara nuk duhet të trajnohen pafund-ata kanë nevojë për mënyra më të mira për të arsyetuar përmes rezultateve të tyre ndërsa i gjenerojnë ato. Në bashkëpunim me Universitetin Tsinghua, kompania ka prezantuar një metodë të re të quajtur akordim kritike të vetë-paramenduar (SPCT), një teknikë gjenerative e modelimit të shpërblimit të krijuar për të operuar gjatë konkluzionit në vend se të kërkojë të dhëna me preferencë të madhe gjatë trajnimit. Target=”_ bosh”> Gazeta hulumtuese e botuar në 4 Prill dhe u testua në një model të quajtur Deepseek-Grm-27b. Rezultatet janë të mrekullueshme. Rezultati: Reduktimi i kostove, shkallëzueshmëria më e mirë dhe performanca më e mirë me modele më të vogla. Përgjigjet. Modeli me 27 miliardë-parametër Deepseek-GRM duke përdorur SPCT arrin një rezultat MT-Bench prej 8.35-modele që përshkojnë të trajnuar me optimizimin e preferencës direkte (DPO), i cili shënon 7.58-pa rritur madhësinë e modelit.
Standardet e pavarura konfirmojnë më tej se SPCT mundëson që modele më të vogla të përputhen me performancën e homologëve shumë më të mëdhenj, siç janë modelet në shkallë 671b, duke përdorur llogaritjen e kohës së konkluzionit me 32 mostra për pyetje.
Ky proces i shtrirjes është krijuar për të shkallëzuar me madhësinë e modelit. Sipas letrës, avantazhi i SPCT bëhet më i dukshëm pasi modelet rriten më të mëdha, duke ofruar një rrugë premtuese përpara për zhvilluesit e AI që kërkojnë të shmangin rrugën e llogaritur të mësimit të përforcimit nga reagimet njerëzore (RLHF). Sinteza parimore, gjenerimi i përgjigjes, filtrimi i kritikës dhe rafinimi parimor. Do fazë ndërtohet në të fundit për të përmirësuar gradualisht cilësinë dhe përafrimin e prodhimit të modelit. Për shembull, kur trajtoni detyrat që lidhen me kodimin, modeli mund të përcaktojë që efikasiteti i kujtesës duhet të marrë përparësi mbi kohën e ekzekutimit dhe lexueshmërinë. Këto parime udhëzojnë fazën tjetër, në të cilën modeli gjeneron një përgjigje fillestare brenda një dritare të kufizuar prej 4,096 me thikë.
Pasi të prodhohet një përgjigje fillestare, modeli angazhohet në vetë-kritik. Ai vlerëson rezultatin e tij kundër parimeve të sintetizuara dhe gjeneron reagime për përmirësim. Këto kritika filtrohen në kohë reale nga një model i shpërblimit meta (META-RM), i cili përdor një përfshirje të shpërblimit 512-dimensionale për të shënuar cilësinë e secilës kritikë. Kritikat me cilësi të dobët janë hedhur poshtë për të siguruar integritetin e ciklit të rafinimit.
Hapi i fundit në lak është rafinimi parimor. Duke përdorur optimizimin e bazuar në gradient, modeli rregullon heuristikën e tij të shtrirjes së brendshme bazuar në atë se sa mirë kritika përputhet me përgjigjen e synuar. Ky akordim rekursiv lejon që modeli të konvergojë në mënyrë përsëritëse në rezultate me cilësi të lartë, duke u përshtatur në mënyrë dinamike me specifikat e secilës pyetje pa kërkuar ndërhyrje të jashtme ose rikualifikim. Modeli GRM-27B punëson 16 ekspertë, me vetëm dy të aktivizuar për shenjë, dhe mbështet Windows kontekstin deri në 128,000 shenja. Ekzekutimi spekulativ rrit më tej performancën duke paraprirë shtigjet e mundshme të kritikës, duke zvogëluar latencën gjatë konkluzionit. Kur përpunoni tufa me një pyetje të vetme, sistemi regjistron një vonesë prej 1.4 sekondash dhe një xhiros prej 42 shenjash për sekondë. Për madhësitë e grupeve prej tetë, latenca rritet në 3.1 sekonda ndërsa shkallët e xhiros në 208 shenja për sekondë. Rezultati është një metodë praktike, me kosto efektive që ruan barazinë e performancës me modele shumë më të mëdha. Modeli Deepseek-GRM, me 27 miliardë parametra dhe duke përdorur SPCT, arrin një kosto trajnimi prej afro 12,000 dollarë ndërsa jep një rezultat të fortë MT-Bench prej 8.35. Në të kundërt, Nemotron-4, një model parametri 340B, shkakton kushton mbi 1.2 milion dollarë për të arritur një rezultat MT-Bench prej 8.41. GPT-4O i Openai, me 1.8 trilion parametra, shënon 8.72 me një kosto të vlerësuar prej 6.3 milion dollarë. Trajnimi CostDeepseek-GRM27B8.35 $ 12,000Nemotron-4340B8.41 1.2 miliongpt-4O1.8T8.72 $ 6.3 milion $
Këto krahasime nënvizojnë një avantazh qendror të SPCT: IT Arritjet e Shtetit të Shtetit duke përdorur një pjesë të burimeve llogaritëse dhe financiare të kërkuara nga Brute-Force Scanning. Përparësitë bindëse në qëndrueshmërinë dhe fleksibilitetin. Ai eliminon gati 90 përqind të shënimit njerëzor që kërkohet në mënyrë tipike për përafrimin, duke zvogëluar në mënyrë drastike investimet e punës dhe kohën. Për më tepër, ajo ul konsumin e energjisë me 73 përqind në krahasim me DPO, duke e bërë atë një mundësi të përgjegjshme për mjedisin për zhvillimin e AI. Metodat tradicionale të shtrirjes janë të kufizuara nga cilësia dhe qëllimi i të dhënave të tyre të trajnimit, duke i bërë ata të ngadalshëm për t’u përshtatur me detyrat e reja ose evolucionare. Në të kundërt, strategjia e konkluzionit rekursiv të SPCT mundëson modele të gjenerojnë dhe rafinojnë parimet në fluturim, duke i lejuar ata të trajtojnë inputet e paparashikueshme dhe të ndryshojnë objektivat pa rikualifikuar. Ekipi Deepseek po eksploron në mënyrë aktive aplikimin e SPCT në kontrollin e robotikës në kohë reale dhe sistemet e mësimit të shpërndarë, ku bashkëpunimi midis agjentëve të shumtë kërkon mekanizma adaptivë të shtrirjes. Më 24 Mars, Deepseek lëshoi një azhurnim me peshë të hapur të modelit të tij Deepseek-V3 për të përqafuar fytyrën nën një licencë MIT, të quajtur Deepseek v3.1. Modeli, duke peshuar në 641 GB, funksionon në mënyrë efikase në pajisjen lokale.
Zhvilluesi Awni Hannun, duke testuar një version të kuantizuar 4-bit në një studio të Apple Mac 512 GB,
Modeli është i disponueshëm në fytyrën e përqafimit në këtë depo për zhvilluesit që kërkojnë të eksperimentojnë me pesha të hapura. Modeli V3-0324/V3.1 është ndërtuar në një model të përzierjes së ekspertëve (MOE), në të cilin vetëm rreth 37 miliardë nga parametrat e tij gjithsej 685 miliardë janë aktivë gjatë çdo hapi të vetëm të konkluzionit. Ky konfigurim mundëson gjenerimin me efikasitet të kujtesës dhe shtohet nga tipare arkitekturore si vëmendje latente me shumë koka (MLA) dhe parashikim me shumë togë (MTP), të dyja të dizajnuara për të përmirësuar shpejtësinë dhe saktësinë e daljes. Po ashtu. Tencent konfirmoi gjatë thirrjes së saj të fitimeve në Q4 2024 se ajo kishte integruar modele Deepseek nëpër produkte si WeChat. Një ekzekutiv i Tencent deklaroi:”Industria dhe ne, brenda industrisë, po marrim produktivitet shumë më të lartë në një model të madh të modelit të gjuhës nga GPU-të ekzistuese pa pasur nevojë të shtojmë GPU shtesë në ritmin e pritur më parë.”Në vitin 2023, Sh.B.A bllokoi shitjet e modeleve A800 dhe H800. Si përgjigje, Tencent thuhet se vendosi urdhra pjesa më e madhe për H20, një çip me fuqi më të ulët të lejuar ende sipas rregullave aktuale. SPCT përputhet më tej me këtë strategji duke mundësuar performancë më të mirë pa rritur numrin e mostrave të trajnimit ose duke u mbështetur në shënimin e preferencave në shkallë të gjerë. Siç është raportuar në 26 shkurt, kompania përshpejtoi afatin e saj origjinal të majit për të mbajtur ritmin me rivalët. Modeli R1 kishte tërhequr vëmendjen për efikasitetin e tij, por ra në fusha të tilla si arsyetimi, saktësia shumëgjuhëshe dhe gjenerimi i kodit. Konkurrentët gjithashtu po lëvizin në mënyrë agresive. Microsoft integroi modelin O1 të Openai në kopilot pa asnjë kosto shtesë, dhe pastaj shpejt pas asaj të azhurnuar në O3-Mini-High. Xai i lëshuar Grok 3 i cili tejkalon GPT-4O. Google në Mars më pas zbuloi Binjakët 2.5 Pro Experimental, duke rikthyer pozicione të larta në standarde të ndryshme, dhe pastaj menjëherë pas zhbllokimit të qasjes falas në këtë model për të gjithë përdoruesit. Openai reagoi ndaj të gjitha këtyre zhvillimeve pas vendimit të tij në shkurt për të anuluar lëshimin e modelit të tij më të fuqishëm O3 për të shkuar për një lëshim të O3 dhe O4-Mini në të ardhmen e afërt, me shumë mundësi duke qenë të preokupuar për të rënë më tej në garën e AI. Modele të mëdha gjuhësore kufitare që prezantojnë ndryshime të mëdha arkitekturore ndërsa zgjerojnë praninë e kompanisë në aplikacionet e konsumatorëve dhe platformat e cloud.