Badacz firmy Samsung zajmujący się sztuczną inteligencją w Montrealu stworzył niewielki model sztucznej inteligencji, który znacznie przekracza swoją wagę, co stanowi wyzwanie dla branży skupiającej się na masowej skali. Opublikowany w tym tygodniu Tiny Recursive Model (TRM) o 7 milionach parametrów przewyższa gigantyczne modele, takie jak Google Gemini 2.5 Pro, w trudnych zagadkach rozumowania.

Model opracowany przez Alexię Jolicoeur-Martineau i szczegółowo opisany w artykuł opublikowany na arXiv ma na celu udowodnienie, że sprytny projekt może być ważniejszy niż sam rozmiar. Wykorzystuje prosty proces „rekurencyjny” do myślenia w pętlach i ulepszania własnych odpowiedzi, oferując wydajniejszą ścieżkę innowacji.

To podejście kwestionuje potrzebę tworzenia ogromnych, kosztownych modeli do rozwiązywania trudnych problemów ze sztuczną inteligencją. Jak stwierdziła Jolicoeur-Martineau, „pomysł, że aby rozwiązać trudne zadania, trzeba polegać na ogromnych, podstawowych modelach wyszkolonych za miliony dolarów przez jakąś wielką korporację, aby rozwiązać trudne zadania, jest pułapką”. Ta premiera sygnalizuje rosnący ruch w kierunku mniejszych, wyspecjalizowanych modeli.

Od złożonej hierarchii do rekurencyjnej prostoty

TRM ewoluuje od hierarchicznego modelu wnioskowania (HRM), ale radykalnie upraszcza swój projekt. Wprowadzony na początku tego roku projekt HRM wykorzystywał dwie oddzielne sieci działające na różnych częstotliwościach, co jego twórcy uzasadnili złożonymi argumentami biologicznymi na temat ludzkiego mózgu.

Podejście to opierało się również na zaawansowanych zasadach matematycznych, takich jak twierdzenie o funkcji ukrytej, aby zarządzać procesem uczenia się, co utrudnia jego analizę. Praca Jolicoeura-Martineau usuwa te warstwy abstrakcji.

TRM wykorzystuje tylko jedną, małą dwuwarstwową sieć. Eliminuje to biologiczne analogie i zależności punktowe, czyniąc architekturę bardziej przejrzystą. Celem było wyizolowanie podstawowego mechanizmu: ulepszenia rekurencyjnego.

Główną innowacją jest proces rozumowania. Model zaczyna się od przybliżonej odpowiedzi i iteracyjnie ją udoskonala. W każdej pętli najpierw aktualizuje swój wewnętrzny „proces myślowy”, a następnie aktualizuje ostateczną odpowiedź, skutecznie symulując znacznie głębszą sieć bez wysokich kosztów.

Ta samodoskonaląca się pętla jest formą „głębokiego nadzoru”, podczas którego model jest szkolony na każdym kroku, aby zbliżyć się do prawidłowego rozwiązania. Pozwala to na uczenie się złożonych, wieloetapowych łańcuchów rozumowania, które normalnie wymagałyby znacznie większego modelu.

Jak wyjaśniono w artykule badawczym, „ten rekurencyjny proces pozwala modelowi na stopniowe ulepszanie swoich odpowiedzi… w sposób niezwykle wydajny pod względem parametrów, minimalizując jednocześnie nadmierne dopasowanie”. Ta metoda zwiększa wydajność i pozwala uniknąć problemów napotykanych przez większe modele w przypadku małych zbiorów danych.

Przekracza swoją wagę w testach porównawczych rozumowania

Siła TRM jest najbardziej widoczna w testach porównawczych zaprojektowanych do testowania abstrakcyjnego rozumowania sztucznej inteligencji, czyli domeny, w której nawet największe modele często mają problemy. Jego wyjątkowe osiągnięcie dotyczy Korpusu Abstrakcji i Rozumowania (ARC-AGI), wymagającego zestawu łamigłówek wizualnych, które są proste dla ludzi, ale niezwykle trudne dla sztucznej inteligencji.

W pierwszej wersji testu, ARC-AGI-1, TRM osiągnął dokładność 45%. Wynik ten przewyższa wiele czołowych producentów w branży, w tym Google Gemini 2.5 Pro (37,0%), o3-mini-high OpenAI (34,5%) i DeepSeek R1 (15,8%), mimo że TRM ma mniej niż 0,01% parametrów.

Przewaga modelu utrzymuje się w jeszcze trudniejszym teście porównawczym ARC-AGI-2. Tutaj TRM uzyskał 7,8%, ponownie pokonując 4,9% Gemini 2.5 Pro i 3,0% o3-mini-high. Chociaż te bezwzględne wyniki mogą wydawać się niskie, stanowią one znaczący krok naprzód w porównaniu z benchmarkiem, w którym postęp był notorycznie powolny.

Dla kontekstu, bieżący ranking znajduje się na czele potężnych, pionierskich modeli, takich jak Grok 4 xAI, ale wydajność TRM przy zaledwie 7 milionach parametrów sprawia, że ​​jest to dramatyczna wartość odstająca, podkreślająca efektywność jego architektury.

Dominacja modelu rozciąga się na inne domeny logiczne, w których duże modele często zawodzą. W przypadku Sudoku-Extreme, zbioru danych zawierających trudne łamigłówki zawierającego zaledwie 1000 przykładów szkoleniowych, TRM ustanowiło nowy, najnowocześniejszy rekord, osiągając dokładność na poziomie 87,4%. Stanowi to ogromną poprawę w porównaniu z 55% uzyskanymi przez jego poprzednika, HRM.

Podobnie w teście Maze-Hard, który polega na znajdowaniu długich ścieżek w złożonych siatkach 30×30, TRM uzyskał 85,3%. Wyniki te w wielu odrębnych domenach logicznych pokazują siłę rekurencyjnego podejścia do ustrukturyzowanego rozwiązywania problemów.

„Mniej znaczy więcej”: nowa filozofia wydajnej sztucznej inteligencji

Być może najbardziej niezwykłe jest efektywnością modelu. Cały model został wytrenowany w zaledwie dwa dni na czterech procesorach graficznych NVIDIA H-100 za niecałe 500 dolarów, co potwierdził badacz. Stanowi to kontrast w stosunku do wielomilionowych szkoleń wymaganych w dzisiejszych granicznych LLM.

<500 $, 4 H-100 na około 2 dni

— Alexia Jolicoeur-Martineau (@jm_alexia) 7 października 2025 r.

Jolicoeur-Martineau podkreślił tę kwestię, stwierdzając: „z rekurencyjnego, okazuje się, że „mniej znaczy więcej”. Mały model przygotowany od podstaw… może wiele osiągnąć bez rozbijania banku.” Ta opłacalność demokratyzuje najnowocześniejsze badania nad sztuczną inteligencją.

Odkrycie, że mniejsza, dwuwarstwowa sieć radzi sobie lepiej z większymi wersjami, również podważa konwencjonalne prawa dotyczące skalowania. W artykule sugeruje się, że dzieje się tak dlatego, że głębokość rekurencyjna pomaga zapobiegać nadmiernemu dopasowaniu, co jest częstym problemem podczas uczenia dużych modeli na ograniczonych danych.

Inżynier ds. badań nad sztuczną inteligencją Sebastian Raschka skomentował wydajność, zauważając: „tak, nadal można robić fajne rzeczy bez centrum danych”.

Od hierarchicznego modelu wnioskowania (HRM) do nowego małego modelu rekurencyjnego (TRM).

Kilka miesięcy temu HRM wywołał duże poruszenie w społeczności badaczy sztucznej inteligencji, ponieważ wykazał się naprawdę dobrymi wynikami w wyzwaniu ARC pomimo niewielkich rozmiarów 27M. (To około 22 razy mniej niż… pic.twitter.com/YhMpn4hlxi

— Sebastian Raschka (@rasbt) 8 października 2025

Projekt jest w serwisie GitHub w ramach liberalnej licencji MIT, umożliwiającej wykorzystanie komercyjne i zachęcającej do szerszego zastosowania.

Wyspecjalizowany Solver, a nie generalista

Zrozumienie TRM jest niezwykle istotne kontekst. Model jest wysoce wyspecjalizowanym solwerem, a nie chatbotem ogólnego przeznaczenia, jak te oparte na modelach z OpenAI czy Google. Jego działanie ogranicza się do ustrukturyzowanych zadań opartych na siatce, w których wyróżnia się metoda rekurencyjna.

Ta specjalizacja to cecha, a nie błąd. Jak zauważył Deedy Das, partner w Menlo Ventures, „większość firm zajmujących się sztuczną inteligencją korzysta obecnie z rozwiązań LLM ogólnego przeznaczenia z monitowaniem o wykonywanie zadań. do określonych zadań, mniejsze modele mogą być nie tylko tańsze, ale także znacznie wyższej jakości!”

Artykuł TRM wydaje się być znaczącym przełomem w sztucznej inteligencji.

Niszczy granicę pareto w testach porównawczych ARC AGI 1 i 2 (oraz w rozwiązywaniu Sudoku i Labiryntu) przy szacowanym koszcie <0,01 USD na zadanie i koszcie <500 USD na wyszkolenie modelu 7M na 2 H100 na 2 dni.

[Szczegóły szkolenia i testów]… pic.twitter.com/9c31HdxiLy

— Deedy (@deedydas) 9 października 2025 r.

To skupienie oznacza, że TRM nie będzie pisać wierszy ani podsumowywać spotkań. Jednak jego sukces zapewnia potężną moc dowód koncepcji dla przedsiębiorstw. Sugeruje to, że flota małych, specjalistycznych modeli może być skuteczniejsza i wydajniejsza niż pojedynczy, monolityczny model ogólny.

Chociaż społeczność sztucznej inteligencji pochwaliła innowację, niektórzy zwrócili uwagę na wąską dziedzinę. Konsensus jest taki, że chociaż TRM nie jest formą inteligencji ogólnej, jej przesłanie jest szerokie: ostrożna rekurencja, a nie tylko ciągłe rozszerzanie, może napędzać kolejną falę badań opartych na rozumowaniu.

Categories: IT Info