Das Allen Institute for AI (AI2) hat OLMo 3 auf den Markt gebracht, eine neue Familie von Sprachmodellen, die die vorherrschende Definition von „Open Source“ in der künstlichen Intelligenz in Frage stellt.
AI2 löst sich vom Industriestandard, lediglich eingefrorene Modellgewichte freizugeben, und veröffentlicht den gesamten „Modellfluss“, ein vollständiges Ökosystem bestehend aus Datensätzen, Trainingscode und Zwischenprüfpunkten.
Open Source wird neu definiert: Der „Modellfluss“ Paradigma
Die meisten „offenen“ Modelle sind heute praktisch Blackboxen mit öffentlichen Griffen; Entwickler können sie verwenden, aber nicht überprüfen, wie sie erstellt wurden.
AI2 versucht, diesen Trend umzukehren, indem es gleichzeitig Dolma 3 veröffentlicht, einen umfangreichen Pre-Training-Datensatz Dolci, ein spezialisiertes Korpus für die Optimierung von Anweisungen nach dem Training.
Durch den Zugriff auf Prüfpunkte aus jeder Entwicklungsphase, vor dem Training, während des Trainings und nach dem Training, ermöglicht das Institut Forschern, an bestimmten Punkten einzugreifen.
Anstatt ein fertiges Produkt zu verfeinern, können Ingenieure das Modell während seiner „Midtraining“-Phase forken, um domänenspezifische Fähigkeiten einzubringen.
Demokratisierung von „System 2“ Argumentation
Im Mittelpunkt dieser Veröffentlichung steht OLMo 3-Think (32B), ein Modell, das die „Gedankenketten“-Fähigkeiten reproduzieren soll, die von proprietären Systemen wie o1 von OpenAI populär gemacht werden. Im Gegensatz zu geschlossenen Alternativen, die ihre Logik hinter API-Aufrufen verbergen, legt OLMo 3-Think seine Zwischenschritte im Denken offen.
Benutzer können genau beobachten, wie das Modell komplexe mathematische oder Codierungsprobleme dekonstruiert. Wie im technischen Bericht erwähnt, können Sie mit „Olmo 3-Think (32B) … intermediäre Argumentationsspuren untersuchen und diese Verhaltensweisen auf die Daten und Trainingsentscheidungen zurückführen, die sie erzeugt haben.“
Benchmarks legen nahe, dass diese Transparenz nicht auf Kosten der Leistungsfähigkeit geht. Die 32B-Variante konkurriert direkt mit Qwen 3 und DeepSeek R1 und verringert die Leistungslücke zwischen vollständig offenen und offenen Argumentationsmodellen.
Auch eine 7B-Variante ist verfügbar, die diese „System 2“-Funktionen für umfassendere Experimente auf Consumer-Hardware bringt.
[eingebetteter Inhalt]
Benchmark-Leistung: Die Lücke mit geschlossenen Modellen schließen
Die Veröffentlichung von OLMo 3 markiert einen bedeutenden Wandel in der Leistungslandschaft für vollständig offene Modelle, insbesondere im Vergleich zu Konkurrenten mit „offenen Gewichten“, die ihre Trainingsdaten geheim halten. Bei branchenüblichen Auswertungen weisen die 32B-Varianten Fähigkeiten auf, die oft mit Modellen mit deutlich größeren Parameterzahlen mithalten oder diese sogar übertreffen.
Bei grundlegenden Codierungsaufgaben liefert OLMo 3-Base (32B) herausragende Ergebnisse. Im HumanEval-Benchmark erreichte es 66,5 % und übertraf damit Metas Llama 3.1 70B (57,4 %) und verdrängte Qwen 2.5 32B (65,6 %).
Diese Effizienz deutet darauf hin, dass die kuratierte „Midtraining“-Phase des Modells – die sich stark auf Code und Mathematik konzentriert – seine Gewichtsklasse erfolgreich übertroffen hat und es einem 32B-Modell ermöglicht, Programmieraufgaben zu bewältigen, denen normalerweise vorbehalten ist 70B+ Parametersysteme.
Die „System 2“-Argumentationsfähigkeiten der OLMo 3-Think-Varianten sind gleichermaßen wettbewerbsfähig, insbesondere in komplexer Mathematik und Logik:
Fortgeschrittene Mathematik: Beim anspruchsvollen MATH-Benchmark erreichte OLMo 3-Think (32B) eine Punktzahl von 96,1 % und übertraf damit sowohl Qwen 3 32B (95,4 %) als auch DeepSeek R1 Distill 32B (92,6 %). Coding Reasoning: In der HumanEvalPlus-Bewertung, die auf robuste Codegenerierung testet, erzielte das Modell 91,4 % und war damit erneut führend im Vergleich zu vergleichbaren Open-Weight-Modellen. Folgende Anleitung: Das Modell belegte mit einem Wert von 89,0 % auch den Spitzenplatz im IFEval-Benchmark, was auf ein hohes Maß an Zuverlässigkeit bei der Einhaltung komplexer Benutzerbeschränkungen hinweist.
Diese Ergebnisse bestätigen die Hypothese von AI2, dass Transparenz keine Kompromisse bei der Qualität erfordert. Durch die Gleichstellung mit führenden Open-Weight-Modellen wie Qwen 3 und Llama 3.1 beweist OLMo 3, dass ein vollständig überprüfbarer „Modellfluss“ modernste Leistung in hochwertigen Bereichen wie quantitativem Denken und Softwareentwicklung unterstützen kann.
Engineering-Effizienz und der 32B Sweet Spot
AI2 hat die 32B-Parametergröße als optimalen Gleichgewichtspunkt positioniert und bietet Hochleistungsfähige Forschungsfunktionen, die weiterhin auf zugänglichen Hardware-Clustern einsetzbar sind. Um dies zu erreichen, waren erhebliche Architekturoptimierungen im GitHub-Repository für OLMo-core erforderlich.
Technische Verbesserungen haben zu erheblichen Beschleunigungen des Trainingsdurchsatzes geführt.
Auch die Effizienz nach dem Training hat sich dramatisch gesteigert. Durch die direkte Migration von Supervised Fine-Tuning (SFT)-Prozessen in das Kern-Framework steigerte das Team den Durchsatz im Vergleich zu früheren Iterationen um das Achtfache.
Ali Farhadi, CEO des Allen Institute for AI, betonte, dass „hohe Leistung nicht mit hohen Kosten verbunden sein muss … verantwortungsvolle, nachhaltige KI kann ohne Kompromisse skaliert werden.“
Datenschutz, Lizenzierung und das breitere Ökosystem
Alle Artefakte in der Hugging Face-Sammlung werden unter der freizügigen Apache 2.0-Lizenz veröffentlicht. Solche Bedingungen gestatten die uneingeschränkte kommerzielle Nutzung, Änderung und Bereitstellung, im Gegensatz zu den restriktiven „Community-Lizenzen“, die häufig von großen Technologielabors verwendet werden.
Transparenz erstreckt sich auch auf die Datenlieferkette. Mit der Veröffentlichung von Dolma 3 stellt sich AI2 der zunehmenden Prüfung von Urheberrechten und Datenherkunft. Durch die Offenlegung der gesamten Pipeline möchte das Institut den Industriestandard von „Vertrauen Sie uns“ zu „Überprüfen Sie es selbst“ verschieben und so ein Maß an wissenschaftlicher Überprüfbarkeit ermöglichen, das derzeit im Bereich der generativen KI selten ist.