Microsoft on esitellyt rStar-Mathin, joka on jatkoa ja parannusta aiemmalle rStar-kehys, joka siirtää pienten kielimallien (SLM) rajoja matemaattisessa päättelyssä.

RStar-Math on suunniteltu kilpailemaan suurempien järjestelmien, kuten OpenAI:n o1-esikatselun, kanssa, ja se saavuttaa merkittäviä vertailukohtia ongelmanratkaisussa ja osoittaa samalla, kuinka kompaktit mallit voivat toimia kilpailukykyisellä tasolla. Tämä kehitys osoittaa AI-prioriteettien muutoksen siirtymällä skaalaamisesta suorituskyvyn optimointiin tiettyjä tehtäviä varten.

RStarista rStar-Mathiin

rStar viime kesän kehys loi pohjan SLM-ajattelun parantamiselle Monten kautta Carlo Tree Search (MCTS), algoritmi, joka jalostaa ratkaisuja simuloimalla ja vahvistamalla useita polkuja.

rStar osoitti, että pienemmät mallit pystyivät käsittelemään monimutkaisia ​​tehtäviä, mutta sen sovellus pysyi yleisenä. rStar-Math rakentaa tälle perustalle kohdistettuja, matemaattiseen päättelyyn räätälöityjä innovaatioita.

rStar-Mathin menestyksen keskeistä on sen koodilla lisätty ajatusketju (CoT)-metodologia, jossa malli tuottaa ratkaisuja molemmille luonnollinen kieli ja suoritettava Python-koodi.

Tämä kaksoislähtörakenne varmistaa, että päättelyn välivaiheet ovat todennettavissa, mikä vähentää virheitä ja ylläpitää loogista johdonmukaisuutta. Tutkijat korostivat tämän lähestymistavan tärkeyttä ja totesivat:”Keskinäinen johdonmukaisuus heijastaa yleistä inhimillistä käytäntöä ilman valvontaa, jossa ikäisensä yksimielisyys johdetuista vastauksista viittaa suurempaan oikeaan todennäköisyyteen.”

Aiheeseen liittyviä: Kiinalainen DeepSeek R1-Lite-Preview-malli kohdistaa OpenAI:n johtavaan asemaan automatisoidussa päättelyssä

CoT:n lisäksi rStar-Math esittelee Process Preference Model (PPM), joka arvioi ja luokittelee välivaiheet laadun perusteella Toisin kuin perinteiset palkitsemisjärjestelmät, jotka usein luottavat meluiseen tietoon, PPM asettaa etusijalle loogisen koherenssin ja tarkkuuden, mikä lisää mallin luotettavuutta >

“PPM hyödyntää sitä tosiasiaa, että vaikka Q-arvot eivät vieläkään ole tarpeeksi tarkkoja pisteyttääkseen jokaista päättelyvaihetta, vaikka käytetään laajaa MCTS:ää. käyttöönottojen avulla Q-arvot voivat luotettavasti erottaa positiiviset (oikeat) vaiheet negatiivisista (epäolennaisista/virheellisistä).

Näin harjoitusmenetelmä muodostaa mieltymysparit kullekin vaiheelle Q-arvojen perusteella ja käyttää parittaista järjestystä. menetys optimoida PPM:n pistemäärän ennuste jokaiselle päättelyvaiheelle, jolloin saadaan luotettava merkintä. Tämä lähestymistapa välttää perinteisiä menetelmiä, jotka käyttävät Q-arvoja suoraan palkkiotunnisteina, jotka ovat luonnostaan ​​meluisia ja epätarkkoja vaiheittaisessa palkitsemisessa.”

Lopuksi neljän kierroksen itsekehitysresepti, joka rakentaa asteittain molempien rajoja. käytäntömalli ja PPM tyhjästä.

rSTar-Math päättelymenettely (Lähde: tutkimuspaperi)

Suorituskyky, joka haastaa suuremmat mallit

rStar-Math asettaa uudet standardit matemaattisen päättelyn vertailuarvoissa saavuttaa tuloksia, jotka kilpailevat ja joissain tapauksissa jopa ylittävät suurempien tekoälyjärjestelmien tulokset

Sivustolla GSM8K-tietojoukon, matemaattisen päättelyn testin, 7 miljardin parametrin mallin tarkkuus parani 12,51 prosentista 63,91 % rStar-Mathin integroinnin jälkeen. American Invitational Mathematics Examination (AIME)-malli ratkaisi 53,3 % ongelmista, sijoittuen lukioon osallistuneiden 20 prosentin parhaan joukkoon.

MATH-tietojoukon tulokset olivat yhtä vaikuttavia, sillä rStar-Math saavutti 90 %:n tarkkuuden, mikä ylitti OpenAI:n o1-esikatselun.

rStar-Mathin ja muiden huippuluokan LLM-yritysten suorituskyky haastavimmissa matematiikan vertailuissa (Lähde: tutkimuspaperi)

Nämä saavutukset korostavat kehyksen kykyä antaa SLM:ille mahdollisuuden käsitellä tehtäviä, joita aiemmin hallitsivat resurssiintensiiviset suuret mallit. Korostamalla loogista johdonmukaisuutta ja todennettavia välivaiheita, rStar-Math vastaa yhteen tekoälyn pysyvimmistä haasteista: varmistaa luotettavan päättelyn monimutkaisissa ongelmatiloissa.

Tekniset innovaatiot ohjaavat rStar-Mathia

Evoluutio rStarista rStar-Mathiin tuo mukanaan useita tärkeitä edistysaskeleita. MCTS:n integrointi on edelleen keskeinen osa viitekehystä, minkä ansiosta malli voi tutkia erilaisia ​​päättelypolkuja ja priorisoida lupaavimmat.

Koodin vahvistamiseen keskittyvän CoT-päättelyn lisääminen varmistaa, että tulokset ovat sekä tulkittavia että tarkkoja.

Aiheeseen liittyviä: Alibaban QwQ-32B-Esikatselu liittyy tekoälymallin päättelykilpailuun OpenAI:n kanssa

Ehkä eniten mullistava on rStar-Mathin itsekehittynyt koulutusprosessi. Neljän iteratiivisen kierroksen aikana viitekehys tarkentaa politiikkamalliaan ja PPM:ää sisällyttäen jokaiseen vaiheeseen korkealaatuisemman päättelyn.

Tämän iteratiivisen lähestymistavan avulla malli voi jatkuvasti parantaa suorituskykyään ja saavuttaa huippuluokan tuloksia ilman suurempien mallien tislaamista.

Vertaamalla rStar-Mathia OpenAI:n o1:een

Samalla kun Microsoft keskittyy pienempien mallien optimointiin, OpenAI jatkaa järjestelmiensä laajentamista.

O1 Pro Mode, joka esiteltiin joulukuussa 2024 osana ChatGPT Pro Plan-ohjelmaa, tarjoaa edistyneitä päättelyominaisuuksia, jotka on räätälöity suuriin sovelluksiin, kuten koodaukseen ja tieteelliseen tutkimukseen. OpenAI raportoi, että o1 Pro Mode saavutti 86 prosentin tarkkuusasteen AIME:ssä ja 90 prosentin onnistumisasteen koodauksen vertailuarvoissa, kuten Codeforcesissa.

rStar-Math edustaa muutosta tekoälyinnovaatiossa ja haastaa alan keskittymisen suurempiin malleihin. ensisijaisena keinona edistyneen päättelyn saavuttamiseksi. Tehostamalla SLM:itä toimialuekohtaisilla optimoinnilla Microsoft tarjoaa kestävän vaihtoehdon, joka vähentää laskentakustannuksia ja ympäristövaikutuksia.

Aiheeseen liittyvä: Deliberative Alignment: OpenAI:n turvallisuusstrategia sen o1-ja o3-ajattelumalleilleen

Viimeistelyn menestys matemaattisessa päättelyssä avaa ovia laajempiin sovelluksiin koulutuksesta alkaen tieteelliseen tutkimukseen.

Tutkijat aikovat julkaista rStar-Mathin koodin ja datan GitHubissa, mikä tasoittaa tietä uudelle yhteistyölle ja kehitystä. Tämä läpinäkyvyys heijastaa Microsoftin lähestymistapaa tuoda tehokkaat tekoälytyökalut saataville laajemmalle yleisölle, mukaan lukien korkeakoulut ja keskisuuret organisaatiot.

Aiheeseen liittyvä: SemiAnalysis: Ei, AI Scaling Isn’t Slow Down

Kun kilpailu Microsoftin ja OpenAI:n välillä kovenee, rStar-Mathin tuomat edistysaskeleet korostavat pienempien mallien mahdollisuuksia haastaa. suurempien järjestelmien dominointi. Priorisoimalla tehokkuuden ja tarkkuuden rStar-Math asettaa uuden mittapuun sille, mitä kompaktit tekoälyjärjestelmät voivat saavuttaa.

Categories: IT Info