Modelo de IA de parâmetro Samsung Tiny 7M supera gigantes da tecnologia em benchmarks de raciocínio

Um pesquisador de IA da Samsung em Montreal criou um pequeno modelo de IA que ultrapassa muito seu peso, desafiando o foco da indústria em grande escala. Lançado esta semana, o Tiny Recursive Model (TRM) de 7 milhões de parâmetros supera modelos gigantes como o Gemini 2.5 Pro do Google em quebra-cabeças de raciocínio difíceis.

O modelo, desenvolvido por Alexia Jolicoeur-Martineau e detalhado em um artigo publicado no arXiv, pretende provar que o design inteligente pode ser mais importante do que o tamanho. Utiliza um processo “recursivo” simples para pensar em ciclos e melhorar as suas próprias respostas, oferecendo um caminho mais eficiente para a inovação.

Esta abordagem questiona a necessidade de modelos enormes e dispendiosos para resolver problemas difíceis de IA. Como afirmou Jolicoeur-Martineau, “a ideia de que é preciso confiar em modelos fundamentais massivos treinados por milhões de dólares por alguma grande corporação para resolver tarefas difíceis é uma armadilha”. O lançamento sinaliza um movimento crescente em direção a modelos menores e especializados.

Da hierarquia complexa à simplicidade recursiva

O TRM evolui do Modelo de raciocínio hierárquico (HRM), mas simplifica radicalmente seu design. Introduzida no início deste ano, a HRM utilizou duas redes separadas operando em frequências diferentes, um conceito que os seus criadores justificaram com argumentos biológicos complexos sobre o cérebro humano.

Essa abordagem também se baseou em princípios matemáticos avançados, como o Teorema da Função Implícita, para gerir o seu processo de aprendizagem, tornando-o difícil de analisar. O trabalho de Jolicoeur-Martineau elimina essas camadas de abstração.

O TRM usa apenas uma pequena rede de duas camadas. Dispensa as analogias biológicas e dependências de ponto fixo, tornando a arquitetura mais transparente. O objetivo era isolar o mecanismo central: melhoria recursiva.

A inovação central é o seu processo de raciocínio. O modelo começa com uma resposta aproximada e a refina iterativamente. Em cada loop, ele primeiro atualiza seu “processo de pensamento” interno antes de atualizar sua resposta final, simulando efetivamente uma rede muito mais profunda sem o alto custo.

Esse loop de autoaperfeiçoamento é uma forma de “supervisão profunda”, onde o modelo é treinado em cada etapa para se aproximar da solução correta. Isso permite que ele aprenda cadeias de raciocínio complexas e de várias etapas que normalmente exigiriam um modelo muito maior.

Como explica o artigo de pesquisa, “esse processo recursivo permite que o modelo melhore progressivamente sua resposta… de uma maneira extremamente eficiente em termos de parâmetros, minimizando o sobreajuste”. Esse método aumenta o desempenho e evita problemas enfrentados por modelos maiores em conjuntos de dados pequenos.

Indo acima de seu peso em benchmarks de raciocínio

O poder do TRM é mais evidente em benchmarks projetados para testar o raciocínio abstrato de IA, um domínio onde até mesmo os maiores modelos costumam ter dificuldades. Sua conquista notável vem do Abstract and Reasoning Corpus (ARC-AGI), um conjunto desafiador de quebra-cabeças visuais que são simples para humanos, mas notoriamente difíceis para IA.

Na primeira versão do teste, ARC-AGI-1, o TRM alcançou 45% de precisão. Essa pontuação supera muitos dos pesos pesados do setor, incluindo o Gemini 2.5 Pro do Google (37,0%), o3-mini-high da OpenAI (34,5%) e DeepSeek R1 (15,8%), apesar do TRM ter menos de 0,01% de seus parâmetros.

A vantagem do modelo se mantém no ainda mais difícil benchmark ARC-AGI-2. Aqui, o TRM obteve 7,8%, superando novamente os 4,9% do Gemini 2.5 Pro e os 3,0% do o3-mini-high. Embora essas pontuações absolutas possam parecer baixas, elas representam um salto significativo em um benchmark onde o progresso tem sido notoriamente lento.

Para contextualizar, o tabela de classificação atual é superado por enormes modelos de fronteira como o Grok 4 da xAI, mas o desempenho do TRM com apenas 7 milhões de parâmetros o torna um desempenho dramático. outlier, destacando a eficiência de sua arquitetura.

O domínio do modelo se estende a outros domínios lógicos onde modelos grandes muitas vezes falham. No Sudoku-Extreme, um conjunto de dados de quebra-cabeças difíceis com apenas 1.000 exemplos de treinamento, o TRM estabeleceu um novo recorde de última geração ao atingir 87,4% de precisão. Isto representa uma enorme melhoria em relação aos 55% obtidos pelo seu antecessor, HRM.

Da mesma forma, no benchmark Maze-Hard, que envolve encontrar caminhos longos através de grades complexas de 30×30, o TRM obteve 85,3%. Esses resultados em vários domínios lógicos distintos demonstram o poder de sua abordagem recursiva para resolução estruturada de problemas.

‘Menos é mais’: uma nova filosofia para IA eficiente

Talvez mais notável é a eficiência do modelo. O modelo inteiro foi treinado em apenas dois dias em quatro GPUs NVIDIA H-100 por menos de US$ 500, conforme confirmado pelo pesquisador. Isso contrasta com os treinamentos multimilionários exigidos para os atuais LLMs de fronteira.

<500$, 4 H-100 por cerca de 2 dias

— Alexia Jolicoeur-Martineau (@jm_alexia) 7 de outubro de 2025

Jolicoeur-Martineau enfatizou esse ponto, afirmando: “com raciocínio recursivo, verifica-se que “menos é mais”. Um pequeno modelo pré-treinado do zero… pode conseguir muito sem gastar muito.”Essa relação custo-benefício democratiza a pesquisa de ponta em IA.

A descoberta de que uma rede menor de duas camadas superou as versões maiores também desafia as leis convencionais de escalabilidade. O artigo sugere que isso ocorre porque a profundidade recursiva ajuda a evitar overfitting, um problema comum ao treinar modelos grandes em dados limitados.

O engenheiro de pesquisa de IA Sebastian Raschka comentou sobre a eficiência, observando: “sim, ainda é possível fazer coisas legais sem um data center”.

Do modelo de raciocínio hierárquico (HRM) para um novo modelo recursivo minúsculo (TRM).

Há alguns meses, o HRM causou grande impacto na comunidade de pesquisa de IA, pois mostrou um desempenho muito bom no desafio ARC, apesar de seu pequeno tamanho de 27 milhões. (Isso é cerca de 22 vezes menor que… pic.twitter.com/YhMpn4hlxi

— Sebastian Raschka (@rasbt) 8 de outubro de 2025

O projeto é no GitHub sob uma licença permissiva do MIT, permitindo o uso comercial e incentivando uma adoção mais ampla.

Um solucionador especializado, não um generalista

É crucial entender os TRMs contexto. O modelo é um solucionador altamente especializado, não um chatbot de uso geral como aqueles baseados em modelos da OpenAI ou do Google. Seu desempenho está confinado a tarefas estruturadas baseadas em grade, onde seu método recursivo se destaca.

Essa especialização é um recurso, não um bug. Como observou Deedy Das, sócio da Menlo Ventures,”a maioria das empresas de IA hoje usa LLMs de uso geral com solicitação de tarefas. Para tarefas específicas, modelos menores podem não apenas ser mais baratos, mas de qualidade muito superior!”

O artigo do TRM parece um avanço significativo em IA.

Ele destrói a fronteira de pareto nos benchmarks ARC AGI 1 e 2 (e na resolução de Sudoku e Maze) com um custo estimado <$0,01 por tarefa e custo <$500 para treinar o modelo 7M em 2 H100s para 2 dias.

[Especificações de treinamento e teste]… pic.twitter.com/9c31HdxiLy

— Deedy (@deedydas) 9 de outubro de 2025

Esse foco significa que o TRM não escreverá poesia ou resumirá reuniões. No entanto, o seu sucesso proporciona uma poderosa prova de conceito para empresas. Sugere que uma frota de pequenos modelos especializados poderia ser mais eficaz e eficiente do que um único modelo generalista monolítico.

Embora a comunidade de IA tenha elogiado a inovação, alguns notaram o domínio restrito. O consenso é que, embora o TRM não seja uma forma de inteligência geral, a sua mensagem é ampla: a recursão cuidadosa, e não apenas a expansão constante, poderia impulsionar a próxima onda de raciocínio. pesquisa.

Modelo de IA de parâmetro Samsung Tiny 7M supera gigantes da tecnologia em benchmarks de raciocínio

Published by All Things Windows on October 9, 2025

Da hierarquia complexa à simplicidade recursiva

Indo acima de seu peso em benchmarks de raciocínio

‘Menos é mais’: uma nova filosofia para IA eficiente

Um solucionador especializado, não um generalista

IT Info

Microsoft recorre a Harvard para reforçar a IA de saúde do Copilot

IT Info

Por que a Microsoft pode ser a vencedora final quando a bolha da IA estourar

IT Info

GitHub pausa desenvolvimento de recursos para migração ‘existencial’ para Azure

Modelo de IA de parâmetro Samsung Tiny 7M supera gigantes da tecnologia em benchmarks de raciocínio

Published by All Things Windows on October 9, 2025

Da hierarquia complexa à simplicidade recursiva

Indo acima de seu peso em benchmarks de raciocínio

‘Menos é mais’: uma nova filosofia para IA eficiente

Um solucionador especializado, não um generalista

Related Posts

IT Info

Microsoft recorre a Harvard para reforçar a IA de saúde do Copilot

IT Info

Por que a Microsoft pode ser a vencedora final quando a bolha da IA ​​estourar

IT Info

GitHub pausa desenvolvimento de recursos para migração ‘existencial’ para Azure

Por que a Microsoft pode ser a vencedora final quando a bolha da IA estourar