Samsung AI-tutkija Montrealissa on luonut pienen AI-mallin, joka lyö huomattavasti painonsa yläpuolelle, haastaen teollisuuden keskittymisen massiiviseen mittakaavaan. Tällä viikolla julkaistu 7 miljoonan parametrin Tiny Recursive-malli (TRM) ylittää jättiläismallit, kuten Googlen Gemini 2.5 Pro kovalla päättelypelissä.

Alexia Jolicoeur-Martineau ja : lla julkaistun paperin tavoitteena on todistaa, että älykäs suunnittelu voi olla tärkeämpi kuin pelkkä koko. Se käyttää yksinkertaista “rekursiivista”prosessia ajatella silmukoita ja parantaa omia vastauksiaan tarjoamalla tehokkaamman polun innovaatioille.

Tämä lähestymistapa kyseenalaistaa valtavien, kalliiden mallien tarvetta kovien AI-ongelmien ratkaisemiseksi. Kuten Jolicoeur-Martineau totesi:”Ajatus siitä, että jokin iso yritys on luotettava massiivisiin perusmalliin miljoonia dollareita, kovien tehtävien ratkaisemiseksi on ansa.”Vapautus merkitsee kasvavaa liikettä kohti pienempiä, erikoistuneita malleja.

kompleksista hierarkiasta rekursiiviseen yksinkertaisuuteen

trm kehittyy hierarkkinen päättelymalli (HRM) , mutta radikaalisesti yksinkertaiset. Aiemmin tänä vuonna esitelty HRM käytti kahta eri taajuuksilla toimivaa erillistä verkkoa, käsitettä, jonka sen tekijät perusteltiin monimutkaisilla biologisilla väitteillä ihmisen aivoista.

, joka lähestymistapa myös luottaa edistyneisiin matemaattisiin periaatteisiin, kuten implisiittisen funktiolauseen oppimisprosessin hallintaan, mikä vaikeutti seurantaa. Jolicoeur-Martineaun työryhmä nauhoittaa nämä abstraktiokerrokset pois.

TRM käyttää vain yhtä pientä kaksikerroksista verkkoa. Se luopuu biologisista analogioista ja kiinteäpisteistä riippuvuuksista, mikä tekee arkkitehtuurista avoimemman. Tavoitteena oli eristää ydinmekanismi: rekursiivinen parannus.

Ydininnovaatio on sen päättelyprosessi. Malli alkaa karkealla vastauksella ja tarkentaa sitä iteratiivisesti. Jokaisessa silmukassa se päivittää ensin sisäisen “ajatusprosessinsa” ennen lopullisen vastauksensa päivittämistä, simuloimalla tehokkaasti paljon syvempää verkkoa ilman korkeita kustannuksia.

Tämä itsenäinen silmukka on muoto”syvän valvonnan”, jossa malli on koulutettu jokaisessa vaiheessa lähempänä oikeaa ratkaisua. Tämän avulla se voi oppia monimutkaisia, monivaiheisia päättelyketjuja, jotka yleensä vaativat paljon suuremman mallin.

, kuten tutkimusasiakirjassa selitetään, “Tämä rekursiivinen prosessi antaa mallin parantaa asteittain vastaustaan… erittäin parametriarvoisella tavalla minimoimalla ylensuojelun.”Tämä menetelmä parantaa suorituskykyä ja välttää ongelmia suurempia malleja kohtaa pienissä tietojoukkoissa. Sen erottuva saavutus tulee abstraktiin ja päättely Corpusiin (ARC-AGI), haastavaan visuaalisiin palapeliin, jotka ovat ihmisille yksinkertaisia, mutta tunnetusti vaikeita AI: lle. Tämä pistemäärä ylittää monet alan raskaansarjan, mukaan lukien Googlen Gemini 2,5 Pro (37,0%), Openain O3-mini-korkeat (34,5%) ja Deepseek R1 (15,8%), huolimatta TRM: llä, jolla on alle 0,01%heidän parametreistaan. TRM teki tässä 7,8%, ja hän lyö Gemini 2,5 Pro: n 4,9%ja O3-Mini-Highin 3,0%. Vaikka nämä absoluuttiset pistemäärät saattavat tuntua alhaisilta, ne edustavat merkittävää harppausta vertailukohdassa, jossa eteneminen on ollut tunnetusti hidasta.

kontekstille Nykyinen tulostaulu. Dramaattinen ulkopuolinen, korostaen sen arkkitehtuurin tehokkuutta. Sudoku-Extreme-sivustolla, joka on vaikeiden palapeleiden tietojoukko vain 1 000 koulutusesimerkistä, TRM asetti uuden huipputeknisen tietueen saavuttamalla 87,4%: n tarkkuuden. Tämä edustaa massiivista parannusta edeltäjänsä HRM. Nämä tulokset useissa, erillisissä loogisissa verkkotunnuksissa osoita sen rekursiivisen lähestymistavan voima jäsennellylle ongelmanratkaisulle. on mallin tehokkuus. Koko malli koulutettiin vain kahdessa päivässä neljällä NVIDIA H-100 GPU: lla alle 500 dollarilla, kuten tutkija vahvisti. Tämä on toisin kuin nykypäivän Frontier LLMS: n edellyttämät monen miljoonan dollarin koulutuskorvaukset. href=”https://twitter.com/jm_alexia/Status/1975586932391313464?REF_SRC=TWSRC%5ETFW”Target=”_ Blank”> 7. lokakuuta 2025

jolicoeur-martineaue, tämä piste, “pistävä. Perustelut osoittautuvat, että’vähemmän on enemmän’. Tämä kustannustehokkuus demokratisoi huippuluokan AI-tutkimuksen. Artikkeli ehdottaa, että tämä johtuu siitä, että rekursiivinen syvyys auttaa estämään ylikuormituksen, yleisen ongelman, kun harjoittelet suuria malleja rajoitetuista tiedoista.

AI-tutkimusinsinööri Sebastian Raschka kommentoi tehokkuutta, huomauttaen: “Kyllä, on silti mahdollista tehdä hienoja asioita ilman tietokeskusta.”(TRM). (Se on noin 22x pienempi kuin… pic.twitter.com/YHMPN4HLXI

-Sebastian Raschka (@RASBT) 8. lokakuuta 2025

Projekti Githubilla sallitun MIT-lisenssin alla , sallii kaupallisen käytön ja laajemman adoption kannustamisen

erikoistuneen ratkaisun, ei generalisti

, joka on Crucial, Konteksti. Tehtävät, pienemmät mallit eivät ehkä ole vain halvempia, vaan paljon korkeampaa laatua!”

TRM-paperi tuntuu merkittävän AI-läpimurtolta.

Se tuhoaa Pareto-raja-alueen AGI 1 ja 2-versioiden (ja Sudoku ja Maze Solming)-versiot. Päivät.

[Koulutus-ja testitiedot]… pic.twitter.com/9c31hdxily

-doedy (@deedydas) 9. lokakuuta 2025

tämä focus tarkoittaa, että TRM ei kirjoita kuitenkin runoutta tai tiivistäviä tapauksia. Konseptin todistus yrityksille. Se ehdottaa, että pienten, asiantuntijoiden mallien laivasto voisi olla tehokkaampi ja tehokkaampi kuin yksi, monoliittinen yleinen malli. Tutkimus.

Categories: IT Info