Un investigador de IA de Samsung en Montreal ha creado un pequeño modelo de IA que supera con creces su peso, desafiando el enfoque de la industria en la escala masiva. Lanzado esta semana, el Tiny Recursive Model (TRM) de 7 millones de parámetros supera a modelos gigantes como el Gemini 2.5 Pro de Google en acertijos de razonamiento difíciles.
El modelo, desarrollado por Alexia Jolicoeur-Martineau y detallado en un Un artículo publicado en arXiv tiene como objetivo demostrar que el diseño inteligente puede ser más importante que el simple tamaño. Utiliza un proceso”recursivo”simple para pensar en bucles y mejorar sus propias respuestas, ofreciendo un camino más eficiente para la innovación.
Este enfoque cuestiona la necesidad de modelos enormes y costosos para resolver problemas difíciles de IA. Como afirmó Jolicoeur-Martineau,”la idea de que uno debe confiar en modelos fundamentales masivos entrenados con millones de dólares por alguna gran corporación para resolver tareas difíciles es una trampa”. El lanzamiento indica un movimiento creciente hacia modelos más pequeños y especializados.
De la jerarquía compleja a la simplicidad recursiva
TRM evoluciona a partir del Modelo de razonamiento jerárquico (HRM), pero simplifica radicalmente su diseño. Introducido a principios de este año, HRM utilizaba dos redes separadas que operaban a diferentes frecuencias, un concepto que sus creadores justificaron con complejos argumentos biológicos sobre el cerebro humano.
Ese enfoque también se basó en principios matemáticos avanzados como el teorema de la función implícita para gestionar su proceso de aprendizaje, lo que dificultaba su análisis. El trabajo de Jolicoeur-Martineau elimina estas capas de abstracción.
TRM utiliza una única y pequeña red de dos capas. Prescinde de las analogías biológicas y las dependencias de puntos fijos, haciendo la arquitectura más transparente. El objetivo era aislar el mecanismo central: la mejora recursiva.
La innovación central es su proceso de razonamiento. El modelo comienza con una respuesta aproximada y la refina iterativamente. En cada ciclo, primero actualiza su”proceso de pensamiento”interno antes de actualizar su respuesta final, simulando efectivamente una red mucho más profunda sin el alto costo.
Este ciclo de mejora automática es una forma de”supervisión profunda”, donde el modelo se entrena en cada paso para acercarse a la solución correcta. Esto le permite aprender cadenas de razonamiento complejas de varios pasos que normalmente requerirían un modelo mucho más grande.
Como explica el artículo de investigación,”este proceso recursivo permite que el modelo mejore progresivamente su respuesta… de una manera extremadamente eficiente en cuanto a parámetros y minimizando el sobreajuste”. Este método aumenta el rendimiento y evita los problemas que enfrentan los modelos más grandes en conjuntos de datos pequeños.
Superando su peso en los puntos de referencia de razonamiento
El poder de TRM es más evidente en los puntos de referencia diseñados para probar el razonamiento abstracto de la IA, un dominio en el que incluso los modelos más grandes a menudo tienen problemas. Su logro más destacado se produce en el Abstract and Reasoning Corpus (ARC-AGI), un desafiante conjunto de acertijos visuales que son simples para los humanos pero notoriamente difíciles para la IA.
En la primera versión de la prueba, ARC-AGI-1, TRM logró una precisión del 45 %. Esta puntuación supera a muchos de los pesos pesados de la industria, incluido el Gemini 2.5 Pro de Google (37,0%), el o3-mini-high de OpenAI (34,5%) y el DeepSeek R1 (15,8%), a pesar de que TRM tiene menos del 0,01% de sus parámetros.
La ventaja del modelo se mantiene en el punto de referencia ARC-AGI-2, aún más difícil. Aquí, TRM obtuvo un 7,8%, superando nuevamente el 4,9% de Gemini 2.5 Pro y el 3,0% de o3-mini-high. Si bien estos puntajes absolutos pueden parecer bajos, representan un avance significativo en un punto de referencia donde el progreso ha sido notoriamente lento.
Para el contexto, la clasificación actual está encabezada por modelos fronterizos masivos como Grok 4 de xAI, pero el rendimiento de TRM con solo 7 millones de parámetros lo convierte en un dramático un valor atípico, que resalta la eficiencia de su arquitectura.
El dominio del modelo se extiende a otros dominios lógicos donde los modelos grandes a menudo fallan. En Sudoku-Extreme, un conjunto de datos de acertijos difíciles con solo 1000 ejemplos de entrenamiento, TRM estableció un nuevo récord de vanguardia al lograr una precisión del 87,4%. Esto representa una enorme mejora con respecto al 55% obtenido por su predecesor, HRM.
Del mismo modo, en el punto de referencia Maze-Hard, que implica encontrar caminos largos a través de complejas cuadrículas de 30×30, TRM obtuvo un 85,3%. Estos resultados en múltiples dominios lógicos distintos demuestran el poder de su enfoque recursivo para la resolución estructurada de problemas.
‘Menos es más’: una nueva filosofía para una IA eficiente
Quizás la mayoría Destacable es la eficiencia del modelo. El modelo completo fue entrenado en sólo dos días en cuatro GPU NVIDIA H-100 por menos de 500 dólares, según confirmó el investigador. Esto contrasta con las sesiones de capacitación multimillonarias que se requieren para los LLM de vanguardia de hoy.
<500$, 4 H-100 durante aproximadamente 2 días
— Alexia Jolicoeur-Martineau (@jm_alexia) 7 de octubre de 2025
Jolicoeur-Martineau enfatizó este punto y afirmó: “con razonamiento recursivo, resulta que “menos es más”. Un modelo pequeño previamente entrenado desde cero… puede lograr mucho sin tener que gastar mucho dinero”. Esta rentabilidad democratiza la investigación de IA de vanguardia.
El hallazgo de que una red más pequeña de dos capas superó a las versiones más grandes también desafía las leyes de escalamiento convencionales. El artículo sugiere que esto se debe a que la profundidad recursiva ayuda a evitar el sobreajuste, un problema común cuando se entrenan modelos grandes con datos limitados.
El ingeniero de investigación en IA Sebastian Raschka comentó sobre la eficiencia y señaló:”Sí, todavía es posible hacer cosas interesantes sin un centro de datos”.
Del modelo de razonamiento jerárquico (HRM) a un nuevo modelo diminuto recursivo (TRM).
Hace unos meses, HRM causó gran sensación en la comunidad de investigación de IA, ya que mostró un rendimiento realmente bueno en el desafío ARC a pesar de su pequeño tamaño de 27 M. (Eso es aproximadamente 22 veces más pequeño que… pic.twitter.com/YhMpn4hlxi
— Sebastian Raschka (@rasbt) 8 de octubre de 2025
El proyecto es en GitHub bajo una licencia MIT permisiva, lo que permite el uso comercial y fomenta una adopción más amplia.
Un solucionador especializado, no un generalista
Es crucial comprender las funciones de TRM contexto. El modelo es un solucionador altamente especializado, no un chatbot de propósito general como los basados en modelos de OpenAI o Google. Su rendimiento se limita a tareas estructuradas basadas en cuadrículas donde sobresale su método recursivo.
Esta especialización es una característica, no un error. Como observó Deedy Das, socio de Menlo Ventures,”la mayoría de las empresas de IA hoy en día utilizan LLM de propósito general con indicaciones para tareas. Para tareas específicas, ¡Los modelos más pequeños pueden no sólo ser más baratos, sino también de mucha mayor calidad!”
El documento TRM se siente como un importante avance en IA.
Destruye la frontera de Pareto en los puntos de referencia ARC AGI 1 y 2 (y en la resolución de Sudokus y Laberintos) con un costo estándar <$0,01 por tarea y un costo <$500 para entrenar el modelo 7M en 2 H100 por 2 días.
[Específicos del entrenamiento y las pruebas]… pic.twitter.com/9c31HdxiLy
— Deedy (@deedydas) 9 de octubre de 2025
Este enfoque significa que TRM no escribirá poesía ni resumirá reuniones. Sin embargo, su éxito proporciona una poderosa prueba de concepto para empresas. Sugiere que una flota de modelos pequeños y expertos podría ser más efectiva y eficiente que un único modelo generalista monolítico.
Si bien la comunidad de IA ha elogiado la innovación, algunos han notado el dominio limitado. El consenso es que, si bien la TRM no es una forma de inteligencia general, su mensaje es amplio: una recursión cuidadosa, no sólo una expansión constante, podría impulsar la próxima ola de razonamiento. investigación.