艾倫人工智能研究所 (AI2) 推出了 OLMo 3,這是一個新的語言模型系列,挑戰了人工智能中“開源”的流行定義。
AI2 打破了僅僅發布凍結模型權重的行業標準,發布了整個“模型流”,這是一個包含數據集、訓練代碼和中間檢查點的完整生態系統。
重新定義開源:“模型流”範式
當今大多數“開放”模型實際上都是帶有公共句柄的黑匣子;開發人員可以使用它們,但無法審核它們的構建方式。
AI2 試圖通過與 Dolci 一起發布 Dolma 3 一個龐大的預訓練數據集來扭轉這一趨勢,用於訓練後指令調整的專門語料庫。
通過提供對每個開發階段(預訓練、訓練中和訓練後)檢查點的訪問,該研究所允許研究人員在特定點進行干預。
工程師可以在“訓練中”階段分叉模型以注入特定領域的技能,而不是微調成品。
民主化“系統 2″推理
此版本的核心是 OLMo 3-Think (32B),該模型旨在復制 OpenAI o1 等專有系統所普及的“思維鏈”推理功能。與將邏輯隱藏在 API 調用背後的封閉替代方案不同,OLMo 3-Think 公開了其中間推理步驟。
用戶可以準確觀察模型如何解構複雜的數學或編碼問題。正如技術報告中所述,“Olmo 3-Think (32B)…讓您可以檢查中間推理痕跡並將這些行為追溯到產生它們的數據和訓練決策。”
基準表明這種透明度不會以能力為代價。 32B 變體與 Qwen 3 和 DeepSeek R1 直接競爭,縮小了完全開放和開放權重推理模型之間的性能差距。
還提供 7B 變體,將這些“System 2″功能引入消費級硬件以進行更廣泛的實驗。
[嵌入內容]
基準性能:縮小與封閉模型的差距
發布OLMo 3 標誌著完全開放模型性能格局的重大轉變,特別是在與保留訓練數據專有的“開放權重”競爭對手競爭時。在整個行業標準評估中,32B 變體所展示的功能通常可以與參數數量顯著增加的模型相媲美或超過。
在基礎編碼任務中,OLMo 3-Base (32B) 提供了出色的結果。在 HumanEval 基準測試中,它的得分為 66.5%,超過了 Meta 的 Llama 3.1 70B (57.4%),並擊敗了 Qwen 2.5 32B (65.6%)。
這種效率表明,該模型策劃的“中期訓練”階段(重點關注代碼和數學)已成功突破其權重級別,從而使 32B 模型能夠處理通常的編程任務為 70B+ 參數係統保留。
OLMo 3-Think 變體的“System 2″推理能力同樣具有競爭力,特別是在復雜的數學和邏輯方面:
高級數學:在具有挑戰性的 MATH 基準測試中,OLMo 3-Think (32B) 取得了 96.1% 的分數,超過了 Qwen 3 32B (95.4%) 和 DeepSeek R1 Distill 32B (92.6%)。編碼推理:在測試穩健代碼生成的 HumanEvalPlus 評估中,該模型得分為 91.4%,再次領先於同類開放權重模型。指令遵循:該模型還以 89.0% 的分數在 IFEval 基準測試中名列第一,表明在遵守複雜的用戶約束方面具有高度的可靠性。
這些結果驗證了 AI2 的假設,即透明度不需要在質量上做出妥協。通過與 Qwen 3 和 Llama 3.1 等領先的開放權重模型相媲美,OLMo 3 證明了完全可審核的“模型流”可以支持定量推理和軟件開發等高價值領域的最先進性能。
工程效率和 32B 最佳點
AI2 將 32B 參數大小定位為最佳平衡點,提供高性能研究功能仍然可部署在可訪問的硬件集群上。要實現這一目標,需要在 OLMo-core 的 GitHub 存儲庫中進行重大架構優化。
技術改進大幅提高了訓練吞吐量。
訓練後效率也得到了顯著提升。通過將監督微調 (SFT) 流程直接遷移到核心框架,該團隊的吞吐量比之前的迭代提高了 8 倍。
艾倫人工智能研究所首席執行官 Ali Farhadi 強調,“高性能不一定需要高成本……負責任、可持續的人工智能可以在不妥協的情況下進行擴展。”
隱私、許可和更廣泛的生態系統
全部Hugging Face 集合中的工件是在寬鬆的 Apache 2.0 許可證下發布的。這些條款允許不受限制的商業使用、修改和部署,這與主要技術實驗室經常使用的限制性“社區許可證”形成鮮明對比。
透明度延伸到數據供應鏈。隨著《卓瑪 3》的發布,AI2 解決了有關版權和數據來源的日益嚴格的審查。通過公開完整的管道,該研究所的目標是將行業標準從“相信我們”轉變為“自己驗證”,從而實現目前生成人工智能領域罕見的科學可審核性水平。