A IBM lançou hoje sua família Granite 4.0 Nano, uma nova linha de modelos de IA de código aberto projetados para eficiência extrema.

Lançados em 29 de outubro de 2025, esses modelos são pequenos o suficiente para serem executados em laptops e até mesmo diretamente em um navegador da Web, desafiando o foco da indústria em sistemas massivos vinculados a servidores.

Com tamanhos a partir de apenas 350 milhões de parâmetros, a família Nano tem como objetivo tornar a IA poderosa acessível para desenvolvedores e empresas sem a necessidade de infraestrutura de nuvem cara.

O lançamento, após a estreia dos modelos Granite 4.0 maiores no início de outubro, sinaliza um impulso estratégico em direção a uma IA menor e mais acessível para aplicativos de computação de ponta e no dispositivo.

Modelos pequenos, grande acessibilidade: Nano funciona em seu laptop

Desafiando o mantra da indústria de “quanto maior, melhor”, a última mudança da IBM prioriza a eficiência e a acessibilidade em vez da escala absoluta. A família Granite 4.0 Nano inclui quatro modelos, variando de um pequeno 350 milhões de parâmetros para uma versão mais capaz de 1,5 bilhão de parâmetros.

Seu design os torna ideais para desenvolvedores que criam aplicativos em hardware de consumo ou na borda, onde a dependência da nuvem é impraticável. O objetivo é capacitar uma nova classe de aplicativos de IA que valorizam a privacidade, a baixa latência e a independência de data centers caros.

As menores variantes podem operar confortavelmente em um laptop moderno com 8 a 16 GB de RAM. Em uma demonstração notável de sua leveza, Joshua Lochner, engenheiro de aprendizado de máquina da Hugging Face, confirmou que “os menores podem até ser executados localmente em seu próprio navegador”, ele confirmou.

Este nível A acessibilidade reduz a barreira de entrada para desenvolvedores e pequenas empresas, permitindo uma mudança em direção à IA local.

A família é dividida em dois estilos arquitetônicos para maximizar a flexibilidade. Dois modelos, Granite-4.0-H-1B e H-350M, usam o espaço de estado híbrido (SSM) e a arquitetura Transformer.

Dois outros, Granite-4.0-1B e 350M, são variantes puras do Transformer, oferecendo maior compatibilidade com ferramentas existentes como llama.cpp.

Um líder de produto da IBM esclareceu a nomenclatura, observando que o modelo 1B não híbrido está, na verdade, mais próximo de 2B, mas foi nomeado para se alinhar com seu irmão híbrido.

Embora a variante híbrida seja um verdadeiro modelo 1B, a variante não híbrida está mais próxima de 2B. A IBM optou por manter a nomenclatura alinhada à variante híbrida para tornar a conexão facilmente visível.

Indo acima de seu peso: desempenho de referência do Nano

Por baixo do capô, os modelos Nano herdam a mesma arquitetura inovadora que tornou notável a família Granite 4.0 inicial.

Ao combinar camadas Mamba-2 altamente eficientes com um pequeno número de blocos Transformer tradicionais, esses modelos alcançam ganhos de desempenho significativos dentro do orçamento.

Esta abordagem híbrida aborda diretamente o”gargalo quadrático”de modelos Transformer puros, onde as demandas de processamento aumentam à medida que o comprimento da entrada aumenta.

O destaque quantitativo mais significativo é o dramático ganho de eficiência: os novos modelos híbridos podem reduzir os requisitos de memória da GPU em mais de 70% durante a inferência, especialmente para cargas de trabalho com contextos longos ou muitos usuários simultâneos.

Essa escolha arquitetônica faz parte de uma corrida mais ampla da indústria pela eficiência da IA, com empresas como o Google explorando novos métodos para reduzir custos computacionais e pesquisadores desenvolvendo novas técnicas de compressão.

Apesar de sua pegada mínima, os modelos Nano oferecem resultados impressionantes nos principais benchmarks do setor, colocando-os em concorrência direta com modelos de linguagem pequena (SLMs, na sigla em inglês) estabelecidos, como o Qwen3 do Alibaba e o Gemma do Google.

De acordo com dados compartilhados pela IBM, o modelo Granite-4.0-H-1B obteve pontuação de 78,5 no IFEval para acompanhamento de instruções, superando o desempenho do modelo maior Qwen3-1.7B.

No Berkeley Function Calling Leaderboard (BFCLv3), um teste crítico para fluxos de trabalho de agentes, a variante Granite-4.0-1B lidera sua classe de tamanho com uma pontuação de 54,8.

IBM Granite 4.0 Nano Berkeley Function Calling Leaderboard v3 (BFCLv3) (Fonte: IBM)

Esses resultados sugerem que o design estratégico e os dados de treinamento de alta qualidade podem permitir que modelos menores concorram efetivamente com modelos muito maiores em tarefas especializadas e relevantes para a empresa.

IBM Granite 4.0 Nano Berkeley Function Calling Leaderboard v3 (BFCLv3) (Fonte: IBM)

Uma base aberta e confiável para IA empresarial

Para desenvolvedores e empresas cautelosas com a dependência de um fornecedor, a licença permissiva do Apache 2.0 oferece liberdade significativa para usar, modificar e distribuir os modelos, mesmo para fins comerciais.

Essa abordagem aberta é uma parte essencial da estratégia da IBM para construir um ecossistema confiável. em torno de seus modelos Granite, posicionando-os como uma alternativa ocidental confiável aos poderosos modelos de código aberto dos concorrentes.

Além da licença aberta, a IBM está reforçando a confiança com padrões de governança rigorosos.

A família Granite é a primeira série de modelos de código aberto a obter a ISO/IEC 42001:2023 certificação, uma certificação internacional padrão que verifica se o sistema de gerenciamento de IA da IBM atende a requisitos rigorosos de responsabilidade e transparência.

Para garantir ainda mais a integridade, cada ponto de verificação do modelo é assinado criptograficamente, permitindo que os desenvolvedores verifiquem sua autenticidade e origem.

Envolvimento direto da IBM com a comunidade de desenvolvedores, incluindo um A sessão”Pergunte-me qualquer coisa”no Reddit sinaliza o compromisso de promover a adoção e coletar feedback.

Os usuários do fórum demonstraram entusiasmo, com um comentário:”Isso é grande se for verdade para um modelo 1B… isso pode ser um verdadeiro burro de carga.”estratégia mais ampla para tornar a IA eficiente e pronta para produção uma realidade para um público mais amplo.

Categories: IT Info