DeepSeek paljastaa uuden menetelmän itsekritiquing AI: lle, joka voisi tehdä ihmisen palautteesta vanhentuneen

Deepseek on vedonlyönti, että kohdistettuja AI-malleja ei tarvitse kouluttaa loputtomasti-he tarvitsevat parempia tapoja perustella tuotoksensa kautta niiden tuottaessaan. Yhteistyössä Tsinghua-yliopiston kanssa yritys on ottanut käyttöön uuden menetelmän nimeltä Itsepalautuneen kritiikin viritys (SPCT), generatiivinen palkkiomallinnustekniikka, joka on suunniteltu toimimaan päätelmien aikana sen sijaan, että vaaditaan laajamittaisia etusijatietoja koulutuksen aikana.

SPCT otettiin käyttöön tutkimuspaperi, joka julkaistiin 4. huhtikuuta ja testattu mallissa nimeltä Deepseek-GRM-27b. Tulokset ovat silmiinpistäviä.

ihmisen staattisesta merkinnästä riippuen, SPCT antaa mallit tarkentaa niiden lähtöjä dynaamisesti käyttämällä itse tuotettuja periaatteita ja kritiikkisilmukoita päätelmien aikana. Tulos: Alennetut kustannukset, paremmat skaalautuvuus ja tila-at-suorituskyky pienemmillä malleilla. 27 miljardin parametrin Deepseek-GRM-malli SPCT: llä saavuttaa MT-Bench-pistemäärän 8,35-ohittavat mallit, jotka on koulutettu suoralla suostumuksen optimoinnilla (DPO), joka on 7,58-lisäämällä mallin kokoa.

Riippumattomat vertailuarvot vahvistavat edelleen, että SPCT antaa pienemmille malleille mahdollisuuden vastata paljon suurempien vastineiden, kuten 671b-asteikon mallin, suorituskykyä hyödyntämällä päätelmäajan laskentaa 32 näytteellä kyselyä kohti.

Tämä kohdistusprosessi on suunniteltu mittakaavalle mallikoko. Paperin mukaan SPCT: n etu tulee selvemmäksi, kun mallit kasvavat suuremmaksi tarjoamalla lupaavan polun AI-kehittäjille, jotka haluavat välttää ihmisen palautteen (RLHF) laskennallista vahvistusoppimista. Synteesi, vasteen luominen, kritiikin suodatus ja periaatteiden hienosäätö. Jokainen vaihe rakentuu viimeiseksi parantaakseen asteittain mallin lähdön laatua ja kohdistamista.

Prosessi alkaa kontekstikohtaisten periaatteiden tuottamisella käyttämällä ajatellut ketjun kehotuksen. Esimerkiksi käsitellessään koodaukseen liittyviä tehtäviä, malli voi määrittää, että muistin tehokkuuden tulisi olla etusijalla ajonaikaan ja luettavuuteen nähden. Nämä periaatteet ohjaavat seuraavaa vaihetta, jossa malli tuottaa alkuperäisen vasteen rajoitetussa 4 096-Toiss-ikkunassa. Se arvioi sen tuotoksen syntetisoitujen periaatteiden suhteen ja tuottaa palautetta parannusta varten. Nämä kriitikot suodatetaan reaaliajassa metapalkkiomalli (Meta-RM), joka käyttää 512-ulottuvuuden palkkiota upotettaessa kunkin kritiikin laadun saamiseksi. Huonolaatuista kritiikkiä hylätään tarkennuksen syklin eheyden varmistamiseksi. Gradienttipohjaisen optimointia käyttämällä malli säätää sisäistä kohdistusheuristiikkaa sen perusteella, kuinka hyvin kritiikki vastaa tarkoitettua vastausta. Tämä rekursiivinen viritys sallii mallin iteratiivisesti lähentyä korkealaatuisia lähtöjä, mukautuen dynaamisesti kunkin kyselyn erityispiirteisiin ilman ulkoista interventiota tai uudelleenkoulutusta.

päätelmien optimointi laitteistotietoisesti

SPCT: n tehokkuuden avulla on mahdollista laitteisto-ja-arkkitehtuurin kautta. GRM-27B-malli työllistää 16 asiantuntijaa, ja se on vain kaksi aktivoitua tunnusta kohti ja tukee jopa 128 000 rahakkeita. Spekulatiivinen toteutus parantaa suorituskykyä edelleen esittämällä mahdolliset kritiikkipolut, vähentämällä viivettä päätelmien aikana. Kun käsittelet yksi kyselyeroja, järjestelmä tallentaa 1,4 sekunnin latenssin ja 42 rahakkeen läpäisyosan sekunnissa. Kahdeksan eräkokojen osalta latenssi kasvaa 3,1 sekunnissa, kun taas suorituskyky asteikot-208 tokenia sekunnissa.

Erä SizelatencyThrugh11.4S42 Tokens/Second83.1S208 Tokens/Second

Tämä tehokas päätelmästrategia sallii SPCT: n asteikon kohdistamiskykyä skaalausmallikokoon. Tuloksena on käytännöllinen, kustannustehokas menetelmä, joka ylläpitää suorituskykypariteettia paljon suuremmilla malleilla.

vertailukustannukset ja suorituskyky malleissa

Vertaileva analyysi paljastaa, että SPCT vähentää merkittävästi koulutuksen kustannuksia ja käyttää korkean suorituskyvyn mallia. Deepseek-GRM-malli, jolla on 27 miljardia parametria ja SPCT: n avulla, saavuttaa noin 12 000 dollarin koulutuskustannukset, samalla kun se toimittaa vahvan MT-Bench-pistemäärän 8,35. Sitä vastoin Nemotron-4, 340B-parametrimalli, on yli 1,2 miljoonaa dollaria MT-Bench-pisteet 8,41. OpenAi’s GPT-4O, 1,8 biljoonaa parametriä, pisteet 8,72 arvioidulla kustannuksella 6,3 miljoonaa dollaria. Koulutus CostdeepEek-GRM27B8.35 12 000 dollariaNEMOTRON-4340B8.41 1,2 miljoonaa dollaria GPT-4O1.8T8.72 6,3 miljoonaa dollaria

Nämä vertailut korostavat SPCT: n keskeistä etua: Se saavuttaa sika-arvon. Pakottavat edut kestävyydessä ja joustavuudessa. Se eliminoi lähes 90 prosenttia ihmisen merkinnästä, jota tyypillisesti vaaditaan linjaamiseen, vähentäen voimakkaasti työvoima-ja aikainvestointeja. Lisäksi se alentaa energiankulutusta 73 prosentilla verrattuna DPO: hon, mikä tekee siitä ympäristöystävällisen vaihtoehdon AI-kehitykselle. Perinteisiä kohdistusmenetelmiä rajoittaa heidän harjoitustietojoukkojen laatu ja laajuus, mikä tekee niistä hitaita sopeutumaan uusiin tai kehittyneisiin tehtäviin. Sitä vastoin SPCT: n rekursiivinen päätelmästrategia antaa mallille mahdollisuuden luoda ja hienosäätää periaatteita lennossa, jolloin ne voivat käsitellä ennakoimattomia tuloja ja muuttaa tavoitteita ilman uudelleenkoulutusta.

Tämä kyky avaa uusia rajoja, kuten robotti, jossa järjestelmien on vastattava dynaamisiin ympäristöihin ja multimodaalisen AI: n, missä kohdistaminen tekstin, näkö-ja sensoritietojen välillä on olennainen. Deepseek-tiimi tutkii aktiivisesti SPCT: n sovellusta reaaliaikaisessa robotiikan hallinnassa ja hajautetuissa oppimisjärjestelmissä, joissa yhteistyö useiden aineiden välillä vaatii mukautuvia kohdistusmekanismeja.

siirtyminen mittakaavasta arkkitehtuuriin

SPCT näyttää olevan keskeinen osa Deepseekin strategiaa AI-suorituskyvyn skaalaamiseksi Smarter-arkkitehtuurien kanssa kuin suuret mallit. Deepseek julkaisi 24. maaliskuuta Deepseek-V3-mallinsa avoimen painon päivityksen MIT-lisenssin halaamiseen, nimeltään Deepseek v3.1. Malli, joka painaa 641 Gt, toimii tehokkaasti paikallisessa laitteistossa.

Kehittäjä AWNI Hannun, kvantitoituneen 4-bittisen version testaaminen 512GB Apple Mac Studiossa, Ilmoitettu Inference Speeds Overing 20 Toksens:”Tehokas malli, jota olen koskaan suorittanut kannettavalla tietokoneellani.”

Malli on saatavana halaamalla kasvot Tässä arkistossa kehittäjät, jotka pyrkivät kokeilemaan avoimia painoja. on rakennettu asiantuntijoiden seoksen (MOE) malliin, jossa vain noin 37 miljardia sen kokonaismäärää 685 miljardia parametria on aktiivinen minkä tahansa yhden päätelmävaiheen aikana. Tämä asennus mahdollistaa muistitehokkaan muodostumisen, ja sitä täydennetään arkkitehtoniset ominaisuudet, kuten monen päälaineen huomion (MLA) ja monikerroksinen ennuste (MTP), jotka molemmat on suunniteltu parantamaan tuotoksen nopeutta ja tarkkuutta. samoin.

Yrityksen käyttöönotto paineen

Deepseekin lähestymistapa on jo validoitu yrityksen käyttöönotolla. Tencent vahvisti vuosineljänneksen 2024 tulospuhelun aikana, että se oli integroinut Deepseek-malleja tuotteisiin, kuten WeChat. Tencent-toimeenpaneva toimeenpaneva toimeenpaneva toimeenpanija totesi: “Teollisuus ja me teollisuudessa saamme paljon korkeamman tuottavuuden suurelle kielimallikoulutukselle olemassa olevasta GPU: sta tarvitsematta lisätä ylimääräisiä GPU: ita aikaisemmin odotettuun vauhtiin.”Vuonna 2023 Yhdysvallat esti A800-ja H800-mallien myynnin. Vastauksena Tencent ilmoitti, että H20: n irtotavaratilaukset, alhaisemman virran siru, joka on edelleen nykyisten sääntöjen nojalla sallittu.

Deepseekin aikaisempi malli R1 koulutettiin käyttämällä vain 2 048 H800 GPU: ta-epätavallisen pieni määrä sen kokoiselle perusmallille. SPCT vastaa edelleen tämän strategian kanssa mahdollistamalla paremman suorituskyvyn lisäämättä koulutusnäytteiden lukumäärää tai luottamatta laajamittaiseen mieltymykseen. Kuten 26. helmikuuta ilmoitettiin, yritys kiihdytti alkuperäistä May-aikataulua pysyäkseen kilpailijoiden kanssa. R1-malli oli kiinnittänyt huomiota sen tehokkuuteen, mutta jäi vajaaksi alueilla, kuten päättely, monikielinen tarkkuus ja koodin luominen.

kilpailijat myös liikkuvat aggressiivisesti. Microsoft integroitu Openain O1-malli Copilotiksi ilman lisäkustannuksia, ja sitten pian sen jälkeen päivitettiin O3-mini-korkeaksi. Xai on julkaissut Grok 3: n, joka ylittää GPT-4O: n. Google maaliskuussa julkisti sitten Gemini 2.5 Pro Experimental, palauttamalla huippupaikkoja erilaisissa vertailuarvoissa ja pian sen jälkeen, kun kaikki käyttäjät avasivat ilmaisen pääsyn tähän malliin.

Openai reagoi kaikkiin näihin kehityksiin sen jälkeen, kun se oli päättänyt peruuttaa sen tehokkaimman O3-mallinsa julkaisemisen O3: n ja O4-minin julkaisemisesta lähitulevaisuudessa, todennäköisesti kiinnostuneena jäämään AI-kilpailussa. Suuret kielimallit, jotka esittelevät suuria arkkitehtonisia muutoksia laajentaen yrityksen läsnäoloa kuluttajasovelluksissa ja pilviympäristöissä.

DeepSeek paljastaa uuden menetelmän itsekritiquing AI: lle, joka voisi tehdä ihmisen palautteesta vanhentuneen

Published by All Things Windows on April 7, 2025

päätelmien optimointi laitteistotietoisesti

siirtyminen mittakaavasta arkkitehtuuriin

Yrityksen käyttöönotto paineen

IT Info

Kuinka poimia ääntä PowerToys-käyttämällä Windows 11 & 10: ssä

IT Info

Stanfordin yliopiston AI-indeksi: Kiinan AI-vauhti kasvaa, jahtaa Yhdysvaltain yrityksiä

IT Info

Yhdistyneen kuningaskunnan tuomioistuin hylkää salassapitovelvollisuuden Applen iCloud-salausriitalla Ison-Britannian kotitoimistossa

DeepSeek paljastaa uuden menetelmän itsekritiquing AI: lle, joka voisi tehdä ihmisen palautteesta vanhentuneen

Published by All Things Windows on April 7, 2025

päätelmien optimointi laitteistotietoisesti

siirtyminen mittakaavasta arkkitehtuuriin

Yrityksen käyttöönotto paineen

Related Posts

IT Info

Kuinka poimia ääntä PowerToys-käyttämällä Windows 11 & 10: ssä

IT Info

Stanfordin yliopiston AI-indeksi: Kiinan AI-vauhti kasvaa, jahtaa Yhdysvaltain yrityksiä

IT Info

Yhdistyneen kuningaskunnan tuomioistuin hylkää salassapitovelvollisuuden Applen iCloud-salausriitalla Ison-Britannian kotitoimistossa