A montreali Samsung AI kutató egy apró AI modellt hozott létre, amely messze meghaladja a súlyát, és kihívást jelent az iparágnak a hatalmas skálára összpontosítva. A héten kiadott, a 7 millió paraméteres apró rekurzív modell (TRM) felülmúlja az óriási modelleket, mint például a Google Gemini 2.5 Pro a kemény érvelési rejtvényekről. Az ARXIV-n közzétett cikk célja annak bizonyítása, hogy az okos kialakítás fontosabb lehet, mint a puszta méret. Egy egyszerű „rekurzív” eljárást használ a hurkokban való gondolkodáshoz és a saját válaszának javításához, hatékonyabb utat kínálva az innovációhoz.

Ez a megközelítés megkérdőjelezi a hatalmas, költséges modellek szükségességét a kemény AI-problémák megoldására. Amint a Jolicoeur-Martineau kijelentette: „Az a gondolat, hogy a hatalmas feladatok megoldása érdekében a nagyvállalatok több millió dollárért képzett masszív alapvető modellekre kell támaszkodniuk.”A kiadás egyre növekvő mozgást jelez a kisebb, speciális modellek felé. src=”adatok: image/svg+xml; nitro-üres-id=mty1mtoxmtg2-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3oD Aiihdpzhropsixmjgwiibozwlnahq9ijc4mcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>

A komplex hierarchiától a rekurzív egyszerűségig

trm a hierarchikus oka (HRM) , de a Radilical Plimplifies-ből alakul ki. Az év elején bevezetett HRM két különálló frekvencián működő, különféle hálózatot használt, amely az alkotói az emberi agyra vonatkozó összetett biológiai érvekkel igazolják. A Jolicoeur-Martineau munkája ezeket az absztrakciós rétegeket eltávolítja. Ellenőrzi a biológiai analógiákat és a rögzített pontfüggőségeket, így az architektúra átláthatóbbá válik. A cél az alapmechanizmus elkülönítése volt: rekurzív javulás.

Az alapvető innováció az érvelési folyamat. A modell durva válaszmal kezdődik, és iteratív módon finomítja azt. Mindegyik hurokban először frissíti a belső „gondolkodási folyamatát”, mielőtt frissítené a végső választ, hatékonyan szimulálva egy sokkal mélyebb hálózatot, a magas költségek nélkül. Ez lehetővé teszi a komplex, többlépcsős érvelési láncok megtanulását, amelyek általában sokkal nagyobb modellt igényelnek. Ez a módszer növeli a teljesítményt, és elkerüli a nagyobb modellekkel szembeni nagyobb modellek kiadását a kis adatkészleteken. Kiemelkedő eredménye az absztrakt és érvelési corpuson (ARC-AGI), egy olyan vizuális rejtvények kihívást jelentő csomagjáról, amely egyszerű az emberek számára, de az AI számára hírhedten nehéz. Ez a pontszám meghaladja az iparág sok nehézsúlyát, köztük a Google Gemini 2,5 Pro (37,0%), az Openai O3-Mini-High (34,5%) és a DeepSeek R1 (15,8%), annak ellenére, hogy a TRM paramétereik kevesebb, mint 0,01%-a. Itt a TRM 7,8%-ot szerzett, ismét legyőzve a Gemini 2,5 Pro 4,9%-át és az O3-Mini-High 3,0%-át. Noha ezek az abszolút pontszámok alacsonynak tűnhetnek, jelentős ugrást jelentenek egy olyan referenciaértéken, ahol a haladás hírhedten lassú volt. Outlier, kiemelve az architektúrájának hatékonyságát. A Sudoku-Extreme-n, a nehéz rejtvények adatkészletén, amelynek csak 1000 edzési példája van, a TRM új, legmodernebb rekordot állított fel 87,4%-os pontosság elérésével. Ez hatalmas javulást jelent az elődje, a HRM. Ezek az eredmények többszörös, különálló logikai domaineken keresztül Mutassák be rekurzív megközelítésének erejét a strukturált problémamegoldáshoz. Figyelemre méltó a modell hatékonysága. Az egész modellt mindössze két nap alatt kiképezték négy NVIDIA H-100 GPU-n 500 dollár alatt, amint azt a kutató megerősítette. Ez ellentétben áll a mai Frontier LLMS-hez szükséges többmillió dolláros edzésekkel. href=”https://twitter.com/jm_alexia/status/1975586932391313464?ref_src=twsrc%5etfw”cél=”_ üres”> október 7, 2025

jaroeur-martineau kiemelés. A rekurzív érvelés kiderül, hogy „kevesebb több”. Ez a költséghatékonyság demokratizálja az élvonalbeli AI kutatást. A cikk azt sugallja, hogy a rekurzív mélység segít megakadályozni a túlteljesítést, ez egy általános probléma, amikor a nagy modelleket korlátozott adatokkal képzi. Néhány hónappal ezelőtt a HRM nagy hullámokat tett az AI kutatási közösségben, mivel ez nagyon jó teljesítményt mutatott az ARC kihívásán, annak ellenére, hogy kicsi 27 millió méretű. (Ez kb. 22x kisebb, mint a… pic.twitter.com/yhmpn4hlxi

-Sebastian Raschka (@Rasbt) October 8, 2025

The project is a githubon megengedett MIT licenc alatt , lehetővé téve a kereskedelmi felhasználást és a szélesebb körű örökbefogadást. Kontextus. Feladatok, a kisebb modellek nemcsak olcsóbbak, hanem sokkal magasabb színvonalúak is!”

A TRM papír jelentős AI áttörésnek érzi magát. 2 nap. href=”https://twitter.com/deedydas/status/197610536600304488?ref_src=twsrc%5etfw”Target=”_ üres”> október 9., 2025

A vállalkozások koncepciója azt sugallja, hogy a kicsi, szakértői modellek hatékonyabbak és hatékonyabbak lehetnek, mint az egyetlen monolit általános modell.

Categories: IT Info