O Allen Institute for AI (AI2) lançou o OLMo 3, uma nova família de modelos de linguagem que desafia a definição predominante de “código aberto” em inteligência artificial.

Rompendo com o padrão da indústria de apenas liberar pesos de modelo congelados, o AI2 está publicando todo o “fluxo de modelo”, um ecossistema completo que inclui conjuntos de dados, código de treinamento e pontos de verificação intermediários.

Redefinindo o código aberto: o ‘fluxo de modelo’ Paradigma

A maioria dos modelos “abertos” hoje são efetivamente caixas pretas com identificadores públicos; os desenvolvedores podem usá-los, mas não podem auditar como eles foram construídos.

AI2 busca reverter essa tendência lançando Dolma 3, um enorme conjunto de dados de pré-treinamento, junto com Dolci, um corpus especializado para ajuste de instruções pós-treinamento.

Ao fornecer acesso a pontos de verificação de cada estágio de desenvolvimento, pré-treinamento, treinamento intermediário e pós-treinamento, o instituto permite que os pesquisadores intervenham em pontos específicos.

Em vez de ajustar um produto acabado, os engenheiros podem bifurcar o modelo durante sua fase de”treinamento intermediário”para injetar habilidades específicas do domínio.

Democratizando o’Sistema 2’Raciocínio

O elemento central deste lançamento é o OLMo 3-Think (32B), um modelo projetado para replicar os recursos de raciocínio de “cadeia de pensamento” popularizados por sistemas proprietários como o o1 da OpenAI. Ao contrário das alternativas fechadas que escondem sua lógica por trás de chamadas de API, o OLMo 3-Think expõe suas etapas intermediárias de raciocínio.

Os usuários podem observar exatamente como o modelo desconstrói problemas complexos de matemática ou codificação. Conforme observado no relatório técnico, “Olmo 3-Think (32B)… permite inspecionar traços de raciocínio intermediários e rastrear esses comportamentos até os dados e decisões de treinamento que os produziram.”

Os benchmarks sugerem que essa transparência não ocorre às custas da capacidade. A variante 32B compete diretamente com Qwen 3 e DeepSeek R1, diminuindo a lacuna de desempenho entre modelos de raciocínio totalmente abertos e de peso aberto.

Uma variante 7B também está disponível, trazendo esses recursos do “Sistema 2″para hardware de nível de consumidor para experimentação mais ampla.

[conteúdo incorporado]

Desempenho de referência: fechando a lacuna com modelos fechados

O lançamento do OLMo 3 marca uma mudança significativa no cenário de desempenho para modelos totalmente abertos, especialmente quando confrontados com concorrentes de “peso aberto” que mantêm seus dados de treinamento proprietários. Nas avaliações padrão do setor, as variantes 32B demonstram recursos que muitas vezes rivalizam ou excedem modelos com contagens de parâmetros significativamente maiores.

Em tarefas básicas de codificação, o OLMo 3-Base (32B) oferece resultados excelentes. No benchmark HumanEval, obteve 66,5%, superando o Llama 3.1 70B da Meta (57,4%) e superando o Qwen 2.5 32B (65,6%).

Essa eficiência sugere que a fase”Midtraining”com curadoria do modelo-que se concentra fortemente em código e matemática-ultrapassou com sucesso sua classe de peso, permitindo que um modelo 32B lide com tarefas de programação normalmente reservadas para Sistemas de parâmetros com mais de 70B.

As capacidades de raciocínio do “Sistema 2″das variantes do OLMo 3-Think são igualmente competitivas, especialmente em matemática e lógica complexas:

Matemática avançada: no desafiador benchmark MATH, o OLMo 3-Think (32B) alcançou uma pontuação de 96,1%, superando o Qwen 3 32B (95,4%) e o DeepSeek R1 Distill 32B (92,6%). Raciocínio de codificação: Na avaliação HumanEvalPlus, que testa a geração robusta de código, o modelo obteve 91,4%, novamente liderando o campo em relação a modelos de peso aberto comparáveis. Instrução a seguir: O modelo também conquistou o primeiro lugar no benchmark IFEval com uma pontuação de 89,0%, indicando um alto grau de confiabilidade no cumprimento de restrições complexas do usuário.

Estes resultados validam a hipótese da AI2 de que a transparência não exige um compromisso com a qualidade. Ao alcançar a paridade com os principais modelos de peso aberto, como Qwen 3 e Llama 3.1, o OLMo 3 prova que um “fluxo de modelo” totalmente auditável pode suportar desempenho de última geração em domínios de alto valor, como raciocínio quantitativo e desenvolvimento de software. recursos de pesquisa de alto desempenho que permanecem implantáveis em clusters de hardware acessíveis. Alcançar isso exigiu otimizações arquitetônicas significativas no repositório GitHub do OLMo-core.

As melhorias técnicas geraram acelerações substanciais no rendimento do treinamento.

A eficiência pós-treinamento também teve um aumento dramático. Ao migrar os processos de ajuste fino supervisionado (SFT) diretamente para a estrutura principal, a equipe aumentou o rendimento em 8 vezes em comparação com as iterações anteriores.

Ali Farhadi, CEO do Allen Institute for AI, enfatizou que “o alto desempenho não precisa ter um custo alto… uma IA responsável e sustentável pode ser escalonada sem compromissos”.

Privacidade, licenciamento e o ecossistema mais amplo

Todos os artefatos da coleção Hugging Face são lançados sob a licença permissiva Apache 2.0. Esses termos permitem uso comercial, modificação e implantação irrestritos, contrastando com as “licenças comunitárias” restritivas frequentemente usadas pelos principais laboratórios de tecnologia.

A transparência se estende à cadeia de fornecimento de dados. Com o lançamento do Dolma 3, o AI2 aborda o escrutínio crescente em relação aos direitos autorais e à proveniência dos dados. Ao expor todo o pipeline, o instituto pretende mudar o padrão da indústria de “confie em nós” para “verifique você mesmo”, permitindo um nível de auditabilidade científica que atualmente é raro no setor de IA generativa.

Categories: IT Info