Samsung Tiny 7M-parameter AI-model verslaat technische giganten op het gebied van redeneerbenchmarks

Een AI-onderzoeker van Samsung in Montreal heeft een klein AI-model gemaakt dat ver boven zijn gewicht uitsteekt en de focus van de industrie op grote schaal uitdaagt. Het Tiny Recursive Model (TRM) met 7 miljoen parameters, dat deze week is uitgebracht, presteert beter dan gigantische modellen zoals Google’s Gemini 2.5 Pro bij lastige redeneringspuzzels.

Het model, ontwikkeld door Alexia Jolicoeur-Martineau en beschreven in een artikel gepubliceerd op arXiv wil bewijzen dat slim ontwerp belangrijker kan zijn dan alleen de omvang. Het maakt gebruik van een eenvoudig ‘recursief’ proces om in loops te denken en zijn eigen antwoorden te verbeteren, waardoor een efficiënter pad voor innovatie wordt geboden.

Deze aanpak zet vraagtekens bij de behoefte aan enorme, kostbare modellen om harde AI-problemen op te lossen. Zoals Jolicoeur-Martineau zei: “Het idee dat je moet vertrouwen op enorme fundamentele modellen die voor miljoenen dollars zijn getraind door een grote onderneming om moeilijke taken op te lossen, is een valstrik.” Deze release signaleert een groeiende beweging richting kleinere, gespecialiseerde modellen.

Van complexe hiërarchie naar recursieve eenvoud

TRM evolueert van het Hierarchical Reasoning Model (HRM), maar vereenvoudigt het ontwerp radicaal. HRM, dat eerder dit jaar werd geïntroduceerd, gebruikte twee afzonderlijke netwerken die op verschillende frequenties werkten, een concept dat de makers ervan rechtvaardigden met complexe biologische argumenten over het menselijk brein.

Die aanpak was ook gebaseerd op geavanceerde wiskundige principes zoals de impliciete functiestelling om het leerproces te beheren, waardoor het moeilijk te analyseren was. Het werk van Jolicoeur-Martineau ontdoet deze lagen van abstractie.

TRM gebruikt slechts een enkel, klein tweelaags netwerk. Het maakt een einde aan de biologische analogieën en vaste afhankelijkheden, waardoor de architectuur transparanter wordt. Het doel was om het kernmechanisme te isoleren: recursieve verbetering.

De kerninnovatie is het redeneringsproces. Het model begint met een ruw antwoord en verfijnt dit iteratief. In elke lus werkt het eerst zijn interne ‘denkproces’ bij voordat het zijn definitieve antwoord bijwerkt, waardoor effectief een veel dieper netwerk wordt gesimuleerd zonder de hoge kosten.

Deze zichzelf verbeterende lus is een vorm van ‘diepgaande supervisie’, waarbij het model bij elke stap wordt getraind om dichter bij de juiste oplossing te komen. Hierdoor kan het complexe, uit meerdere stappen bestaande redeneringsketens leren waarvoor normaal gesproken een veel groter model nodig zou zijn.

Zoals het onderzoekspaper uitlegt:”Dit recursieve proces stelt het model in staat zijn antwoord geleidelijk te verbeteren… op een uiterst parameter-efficiënte manier, terwijl overfitting wordt geminimaliseerd.”Deze methode verhoogt de prestaties en vermijdt problemen waarmee grotere modellen te maken krijgen op kleine datasets.

Overdreven gewicht in de redeneerbenchmarks

De kracht van TRM komt het meest duidelijk naar voren bij benchmarks die zijn ontworpen om abstracte AI-redeneringen te testen, een domein waar zelfs de grootste modellen vaak moeite mee hebben. De opvallende prestatie komt op het gebied van het Abstract and Reasoning Corpus (ARC-AGI), een uitdagende reeks visuele puzzels die eenvoudig zijn voor mensen, maar notoir moeilijk voor AI.

In de eerste versie van de test, ARC-AGI-1, behaalde TRM een nauwkeurigheid van 45%. Deze score overtreft veel van de zwaargewichten in de branche, waaronder Google’s Gemini 2.5 Pro (37,0%), OpenAI’s o3-mini-high (34,5%) en DeepSeek R1 (15,8%), ondanks dat TRM minder dan 0,01% van hun parameters heeft.

Het voordeel van het model blijft bestaan ten opzichte van de nog moeilijkere ARC-AGI-2 benchmark. Hier scoorde TRM 7,8% en versloeg opnieuw de 4,9% van Gemini 2.5 Pro en de 3,0% van o3-mini-high. Hoewel deze absolute scores misschien laag lijken, vertegenwoordigen ze een aanzienlijke sprong voorwaarts op een benchmark waar de vooruitgang notoir traag is.

Voor de context: het huidige klassement wordt aangevoerd door enorme grensmodellen zoals Grok 4 van xAI, maar de prestaties van TRM met slechts 7 miljoen parameters maken het een dramatische uitschieter, wat de efficiëntie van de architectuur benadrukt.

De dominantie van het model strekt zich uit tot andere logische domeinen waar grote modellen vaak falen. Op Sudoku-Extreme, een dataset van moeilijke puzzels met slechts 1.000 trainingsvoorbeelden, vestigde TRM een nieuw state-of-the-art record door een nauwkeurigheid van 87,4% te bereiken. Dit vertegenwoordigt een enorme verbetering ten opzichte van de 55% die zijn voorganger, HRM, scoorde.

Op dezelfde manier scoorde TRM 85,3% op de Maze-Hard-benchmark, waarbij lange paden door complexe 30×30-rasters moeten worden gevonden. Deze resultaten op meerdere, verschillende logische domeinen demonstreren de kracht van de recursieve aanpak voor gestructureerde probleemoplossing.

‘Less is More’: een nieuwe filosofie voor efficiënte AI

Misschien wel de meeste Opvallend is de efficiëntie van het model. Het hele model werd in slechts twee dagen getraind op vier NVIDIA H-100 GPU’s voor minder dan $ 500, zoals bevestigd door de onderzoeker. Dit staat in contrast met de trainingssessies van meerdere miljoenen dollars die nodig zijn voor de hedendaagse LLM’s.

<500$, 4 H-100 voor ongeveer 2 dagen

— Alexia Jolicoeur-Martineau (@jm_alexia) 7 oktober 2025

Jolicoeur-Martineau benadrukte dit punt en zei: “met recursief redeneren blijkt dat ‘less is more’. Een klein model dat helemaal opnieuw is getraind… kan veel bereiken zonder veel geld uit te geven.”Deze kosteneffectiviteit democratiseert baanbrekend AI-onderzoek.

De bevinding dat een kleiner, uit twee lagen bestaand netwerk beter presteerde dan grotere versies, daagt ook de conventionele schaalwetten uit. Het artikel suggereert dat dit komt omdat de recursieve diepte overfitting helpt voorkomen, een veelvoorkomend probleem bij het trainen van grote modellen op beperkte data.

AI-onderzoeksingenieur Sebastian Raschka gaf commentaar op de efficiëntie en merkte op:”Ja, het is nog steeds mogelijk om coole dingen te doen zonder een datacenter.”

Van het Hiërarchisch Redeneren Model (HRM) naar een nieuw Tiny Recursief Model (TRM).

Een paar maanden geleden zorgde de HRM voor grote opschudding in de AI-onderzoeksgemeenschap, omdat het ondanks zijn kleine omvang van 27 miljoen echt goede prestaties liet zien in de ARC-uitdaging. (Dat is ongeveer 22x kleiner dan de… pic.twitter.com/YhMpn4hlxi

— Sebastian Raschka (@rasbt) 8 oktober 2025

Het project is op GitHub onder een toegestane MIT-licentie, waardoor commercieel gebruik mogelijk is en een bredere adoptie wordt aangemoedigd.

Een gespecialiseerde oplosser, geen generalist

Het is van cruciaal belang om de context van TRM te begrijpen. Het model is een zeer gespecialiseerde oplosser, en geen chatbot voor algemeen gebruik zoals die gebaseerd op modellen van OpenAI of Google. De prestaties zijn beperkt tot gestructureerde, op rasters gebaseerde taken waarbij de recursieve methode uitblinkt.

Deze specialisatie is een functie, geen bug. Zoals Deedy Das, een partner bij Menlo Ventures, opmerkte:”de meeste AI-bedrijven gebruiken tegenwoordig LLM’s voor algemene doeleinden met aanwijzingen voor taken. Voor specifieke taken kunnen kleinere modellen mogelijk niet alleen goedkoper, maar veel hogere kwaliteit!”

Het TRM-paper voelt als een belangrijke AI-doorbraak.

Het vernietigt de pareto-grens op de ARC AGI 1-en 2-benchmarks (en het oplossen van Sudoku en Maze) met geschatte kosten van <$ 0,01 per taak en kosten <$ 500 om het 7M-model gedurende 2 dagen te trainen op 2 H100's.

[Trainings-en testspecificaties]… pic.twitter.com/9c31HdxiLy

— Deedy (@deedydas) 9 oktober 2025

Deze focus betekent dat TRM geen poëzie zal schrijven of bijeenkomsten zal samenvatten. Het succes ervan biedt echter een krachtig effect proof-of-concept voor ondernemingen. Het suggereert dat een vloot van kleine, deskundige modellen effectiever en efficiënter zou kunnen zijn dan een enkel, monolithisch generalistisch model.

Hoewel de AI-gemeenschap de innovatie heeft geprezen, hebben sommigen het beperkte domein opgemerkt. De consensus is dat hoewel TRM geen vorm van algemene intelligentie is, de boodschap ervan breed is: zorgvuldige recursie, en niet alleen maar constante expansie, zou de volgende golf van redeneringen kunnen aandrijven. onderzoek.

Samsung Tiny 7M-parameter AI-model verslaat technische giganten op het gebied van redeneerbenchmarks

Published by All Things Windows on October 9, 2025

Van complexe hiërarchie naar recursieve eenvoud

Overdreven gewicht in de redeneerbenchmarks

‘Less is More’: een nieuwe filosofie voor efficiënte AI

Een gespecialiseerde oplosser, geen generalist

IT Info

Hoe de spelmodus uit te schakelen in Windows 11 (en AAN te zetten)

IT Info

$ 440.000 voor AI-slop: Deloitte betaalt de overheid gedeeltelijk terug nadat AI details in rapport heeft verzonnen

IT Info

Figure AI onthult figuur 03, een humanoïde robot ontworpen voor massaproductie en het dagelijks leven

Samsung Tiny 7M-parameter AI-model verslaat technische giganten op het gebied van redeneerbenchmarks

Published by All Things Windows on October 9, 2025

Van complexe hiërarchie naar recursieve eenvoud

Overdreven gewicht in de redeneerbenchmarks

‘Less is More’: een nieuwe filosofie voor efficiënte AI

Een gespecialiseerde oplosser, geen generalist

Related Posts

IT Info

Hoe de spelmodus uit te schakelen in Windows 11 (en AAN te zetten)

IT Info

$ 440.000 voor AI-slop: Deloitte betaalt de overheid gedeeltelijk terug nadat AI details in rapport heeft verzonnen

IT Info

Figure AI onthult figuur 03, een humanoïde robot ontworpen voor massaproductie en het dagelijks leven