El Instituto Allen para la IA (AI2) ha lanzado OLMo 3, una nueva familia de modelos de lenguaje que desafía la definición predominante de”código abierto”en inteligencia artificial.

Rompiendo con el estándar de la industria de simplemente liberar pesos de modelos congelados, AI2 está publicando todo el”flujo de modelo”, un ecosistema completo que comprende conjuntos de datos, código de entrenamiento y puntos de control intermedios.

Redefiniendo el código abierto: el”flujo de modelo”Paradigma

La mayoría de los modelos “abiertos” actuales son en realidad cajas negras con identificadores públicos; los desarrolladores pueden usarlos, pero no pueden auditar cómo se crearon.

AI2 busca revertir esta tendencia lanzando Dolma 3, un enorme conjunto de datos de preentrenamiento, junto con Dolci, un corpus especializado para el ajuste de instrucciones post-entrenamiento.

Al brindar acceso a puntos de control de cada etapa de desarrollo, preentrenamiento, entrenamiento medio y post-entrenamiento, el instituto permite a los investigadores intervenir en puntos específicos.

En lugar de ajustar un producto terminado, los ingenieros pueden bifurcar el modelo durante su fase de”entrenamiento medio”para inyectar habilidades específicas de dominio.

democratizar el’Sistema 2’Razonamiento

El elemento central de esta versión es OLMo 3-Think (32B), un modelo diseñado para replicar las capacidades de razonamiento de”cadena de pensamiento”popularizadas por sistemas propietarios como o1 de OpenAI. A diferencia de las alternativas cerradas que ocultan su lógica detrás de las llamadas API, OLMo 3-Think expone sus pasos de razonamiento intermedios.

Los usuarios pueden observar exactamente cómo el modelo deconstruye problemas matemáticos o de codificación complejos. Como se señala en el informe técnico, “Olmo 3-Think (32B)… le permite inspeccionar rastros de razonamiento intermedio y rastrear esos comportamientos hasta los datos y las decisiones de capacitación que los produjeron”.

Los puntos de referencia sugieren que esta transparencia no se produce a costa de la capacidad. La variante 32B compite directamente con Qwen 3 y DeepSeek R1, reduciendo la brecha de rendimiento entre los modelos de razonamiento totalmente abiertos y de peso abierto.

También está disponible una variante 7B, que lleva estas capacidades del”Sistema 2″al hardware de consumo para una experimentación más amplia.

[contenido integrado]

Rendimiento de referencia: cerrando la brecha con modelos cerrados

El lanzamiento de OLMo 3 marca un cambio significativo en el panorama de rendimiento para modelos totalmente abiertos, particularmente cuando se comparan con competidores de”pesos abiertos”que mantienen sus datos de entrenamiento en propiedad. En las evaluaciones estándar de la industria, las variantes 32B demuestran capacidades que a menudo rivalizan o superan a los modelos con recuentos de parámetros significativamente mayores.

En tareas de codificación fundamentales, OLMo 3-Base (32B) ofrece resultados destacados. En el punto de referencia HumanEval, obtuvo una puntuación del 66,5 %, superando a Llama 3.1 70B de Meta (57,4 %) y superando a Qwen 2.5 32B (65,6 %).

Esta eficiencia sugiere que la fase seleccionada de “entrenamiento intermedio” del modelo, que se centra en gran medida en el código y las matemáticas, ha superado con éxito su categoría de peso, permitiendo que un modelo 32B maneje tareas de programación normalmente reservadas para Sistemas de parámetros 70B+.

Las capacidades de razonamiento del “Sistema 2″de las variantes de OLMo 3-Think son igualmente competitivas, particularmente en matemáticas y lógica complejas:

Matemáticas avanzadas: en el desafiante punto de referencia MATH, OLMo 3-Think (32B) logró una puntuación del 96,1 %, superando tanto a Qwen 3 32B (95,4 %) como a DeepSeek R1 Distill 32B (92,6 %). Razonamiento de codificación: en la evaluación HumanEvalPlus, que prueba la generación robusta de código, el modelo obtuvo una puntuación del 91,4%, liderando nuevamente el campo frente a modelos abiertos comparables. Instrucciones siguientes: El modelo también obtuvo el primer lugar en el punto de referencia IFEval con una puntuación del 89,0%, lo que indica un alto grado de confiabilidad al cumplir con restricciones complejas del usuario.

Estos resultados validan la hipótesis de AI2 de que la transparencia no requiere comprometer la calidad. Al lograr la paridad con los principales modelos de peso abierto como Qwen 3 y Llama 3.1, OLMo 3 demuestra que un”flujo de modelo”totalmente auditable puede soportar un rendimiento de última generación en dominios de alto valor como el razonamiento cuantitativo y el desarrollo de software.

Eficiencia de ingeniería y el punto ideal de 32B

AI2 ha posicionado el tamaño del parámetro 32B como un punto de equilibrio óptimo, ofreciendo Capacidades de investigación de alto rendimiento que siguen siendo implementables en clústeres de hardware accesibles. Lograr esto requirió importantes optimizaciones arquitectónicas dentro del repositorio GitHub para OLMo-core.

Las mejoras técnicas han producido aceleraciones sustanciales en el rendimiento de la capacitación.

La eficiencia posterior a la capacitación también ha experimentado un aumento dramático. Al migrar los procesos de ajuste fino supervisado (SFT) directamente al marco central, el equipo aumentó el rendimiento 8 veces en comparación con las iteraciones anteriores.

Ali Farhadi, director ejecutivo del Instituto Allen de IA, enfatizó que”el alto rendimiento no tiene por qué tener un alto costo… la IA responsable y sostenible puede escalar sin concesiones”.

Privacidad, licencias y el ecosistema más amplio

Todos Los artefactos de la colección Hugging Face se publican bajo la licencia permisiva Apache 2.0. Dichos términos permiten el uso, la modificación y la implementación comercial sin restricciones, en contraste con las restrictivas”licencias comunitarias”que suelen utilizar los principales laboratorios tecnológicos.

La transparencia se extiende a la cadena de suministro de datos. Con el lanzamiento de Dolma 3, AI2 aborda el creciente escrutinio con respecto a los derechos de autor y la procedencia de los datos. Al exponer todo el proceso, el instituto pretende cambiar el estándar de la industria de”confíe en nosotros”a”verifíquelo usted mismo”, permitiendo un nivel de auditabilidad científica que actualmente es poco común en el sector de la IA generativa.

Categories: IT Info