AI2 が OLMo 3 をリリース: ブラックボックス AI パラダイムに挑戦する完全にオープンな「モデルフロー」

アレン AI 研究所 (AI2) は、人工知能における「オープンソース」の一般的な定義に異議を唱える新しい言語モデルファミリである OLMo 3 を立ち上げました。

凍結されたモデルの重みを単にリリースするという業界標準から脱却し、AI2 は、データセット、トレーニングコード、中間チェックポイントで構成される完全なエコシステムである「モデルフロー」全体を公開しています。

オープンソースの再定義: 「モデルフロー」パラダイム

今日のほとんどの「オープン」モデルは、実質的にパブリックハンドルを備えたブラックボックスです。開発者はそれらを使用できますが、その構築方法を監査することはできません。

AI2 は、Dolci と並ぶ大規模な事前トレーニングデータセットである Dolma 3 をリリースすることで、この傾向を逆転させようとしています。トレーニング後の指示調整に特化したコーパスです。

トレーニング前、トレーニング中、トレーニング後のすべての開発段階からチェックポイントへのアクセスを提供することで、同研究所は研究者が特定の時点で介入できるようにしています。

エンジニアは完成品を微調整する代わりに、「トレーニング中」フェーズでモデルをフォークして、ドメイン固有のスキルを注入できます。

「システム 2」の民主化推論

このリリースの中心となるのは、OLMo 3-Think (32B) です。これは、OpenAI の o1 などの独自システムによって普及した「思考連鎖」推論機能を複製するように設計されたモデルです。 API 呼び出しの背後にロジックを隠すクローズドな代替手段とは異なり、OLMo 3-Think は中間推論ステップを公開します。

ユーザーは、モデルが複雑な数学やコーディングの問題をどのように分解するかを正確に観察できます。技術レポートに記載されているように、「Olmo 3-Think (32B)… 中間推論トレースを検査し、それらの動作をその動作を生成したデータとトレーニングの決定まで追跡できます。」

ベンチマークは、この透明性が機能を犠牲にして得られるものではないことを示しています。 32B バリアントは、Qwen 3 および DeepSeek R1 と直接競合し、完全にオープンな推論モデルとオープンウェイト推論モデルの間のパフォーマンスのギャップを縮めます。

7B バリアントも利用可能で、これらの「System 2」機能を消費者グレードのハードウェアにもたらし、より広範な実験を行うことができます。

[埋め込みコンテンツ]

ベンチマークパフォーマンス: クローズドモデルとのギャップを埋める

OLMo 3 は、特にトレーニングデータを独自に保持する「オープンウェイト」の競合他社と対戦した場合に、完全にオープンなモデルのパフォーマンス環境に大きな変化をもたらします。業界標準の評価全体で、32B バリアントは、パラメーター数が大幅に多いモデルに匹敵する、またはそれを上回る機能を実証しています。

基本的なコーディングタスクにおいて、OLMo 3-Base (32B) は傑出した結果をもたらします。 HumanEval ベンチマークでは 66.5% のスコアを記録し、Meta の Llama 3.1 70B (57.4%) を上回り、Qwen 2.5 32B (65.6%) を上回りました。

この効率は、コードと数学に重点を置いたモデルの精選された「中間トレーニング」フェーズがその重量クラスをうまく上回っており、32B モデルが通常、70B 以上のパラメータシステムに予約されているプログラミングタスクを処理します。

OLMo 3-Think バリアントの「System 2」推論機能は、特に複雑な数学と論理において同等の競争力を持っています。

高度な数学: 難しい MATH ベンチマークで、OLMo 3-Think (32B) は 96.1% のスコアを達成し、Qwen 3 32B (95.4%) と DeepSeek R1 Distill の両方を上回りました。 32B (92.6%)。コーディング推論: 堅牢なコード生成をテストする HumanEvalPlus の評価では、このモデルは 91.4% のスコアを獲得し、同様のオープンウェイトモデルに対して再びこの分野をリードしました。以下の指示: このモデルは、IFEval ベンチマークでも 89.0% のスコアでトップの座を獲得し、複雑なユーザー制約を順守する際の高い信頼性を示しています。

これらの結果は、透明性のために品質を犠牲にする必要はないという AI2 の仮説を検証します。 Qwen 3 や Llama 3.1 などの主要なオープンウェイトモデルと同等の性能を達成することで、OLMo 3 は、完全に監査可能な「モデルフロー」が定量的推論やソフトウェア開発などの高価値ドメインで最先端のパフォーマンスをサポートできることを証明しています。

エンジニアリング効率と 32B のスイートスポット

AI2 は、32B のパラメータサイズを最適なバランスとして位置付けています。ポイントは、アクセス可能なハードウェアクラスターに展開可能な高性能の研究機能を提供することです。これを達成するには、OLMo-core の GitHub リポジトリ内で大幅なアーキテクチャの最適化が必要でした。

技術的な改善により、トレーニングのスループットが大幅に高速化されました。

トレーニング後の効率も劇的に向上しました。教師あり微調整 (SFT) プロセスをコアフレームワークに直接移行することで、チームは以前の反復と比較してスループットを 8 倍向上させました。

Allen Institute for AI の CEO である Ali Farhadi 氏は、「高性能には必ずしも高いコストがかかる必要はありません…責任ある持続可能な AI は妥協なく拡張可能です。」

プライバシー、ライセンス、およびより広範な領域エコシステム

Hugging Face コレクション内のすべてのアーティファクトは、寛容な Apache 2.0 ライセンスの下でリリースされています。このような条件は、大手技術研究所でよく使用される制限的な「コミュニティライセンス」とは対照的に、無制限の商業利用、変更、展開を許可します。

透明性はデータサプライチェーンにまで及びます。 Dolma 3 のリリースにより、AI2 は著作権とデータの出所に関する精査の増大に対処します。同研究所は、パイプライン全体を公開することで、業界標準を「信頼してください」から「自分で検証してください」に移行し、生成 AI 分野では現在珍しいレベルの科学的監査可能性を可能にすることを目指しています。

AI2 が OLMo 3 をリリース: ブラックボックス AI パラダイムに挑戦する完全にオープンな「モデルフロー」

Published by All Things Windows on November 21, 2025

オープンソースの再定義: 「モデルフロー」パラダイム

「システム 2」の民主化推論

ベンチマークパフォーマンス: クローズドモデルとのギャップを埋める

エンジニアリング効率と 32B のスイートスポット

プライバシー、ライセンス、およびより広範な領域エコシステム

IT Info

Bluetooth スピーカーの接続方法

IT Info

一般的なハードディスクドライブのサイズはどれくらいですか?

IT Info

ホームサーバーラックのセットアップ方法 (完全な DIY ガイド)

AI2 が OLMo 3 をリリース: ブラック ボックス AI パラダイムに挑戦する完全にオープンな「モデル フロー」

Published by All Things Windows on November 21, 2025

オープン ソースの再定義: 「モデル フロー」パラダイム

「システム 2」の民主化推論

ベンチマーク パフォーマンス: クローズド モデルとのギャップを埋める

エンジニアリング効率と 32B のスイート スポット

プライバシー、ライセンス、およびより広範な領域エコシステム

Related Posts

IT Info

Bluetooth スピーカーの接続方法

IT Info

一般的なハードディスクドライブのサイズはどれくらいですか?

IT Info

ホームサーバーラックのセットアップ方法 (完全な DIY ガイド)

AI2 が OLMo 3 をリリース: ブラックボックス AI パラダイムに挑戦する完全にオープンな「モデルフロー」

オープンソースの再定義: 「モデルフロー」パラダイム

ベンチマークパフォーマンス: クローズドモデルとのギャップを埋める

エンジニアリング効率と 32B のスイートスポット