何年もの間、人工知能の研究は、数十億ドルを大規模なAIモデルに注ぐ企業によって支配されてきました。しかし、スタンフォード大学とワシントン大学の新しいプロジェクトは、その信念に挑戦しています。 deepseek。
広範なインフラストラクチャや数か月のトレーニングを必要とする独自のモデルとは異なり、S1は、研究者によると、わずか16のNVIDIA H100 GPUを使用して30分以内に微調整されました。=”812″height=”909″src=”データ:画像/gif; base64、r0lgodlhaqabaaaaach5baekaaealaaaaaaaaaaaaaaaaictaeaow==”>
related>/p>
そのコード、方法論、およびデータセットは、オープンソースGithubリポジトリ、誰でも検査、複製、または改善できるようにします。このプロジェクトは、AI業界にとって重要な問題を提起します。最高レベルで競争するために数十億ドルの予算がまだ必要ですか?/strong>
aiジャイアンツオープン、グーグル、マイクロソフトは、AIモデルのトレーニングとインフラストラクチャで競合他社を上回る能力に大きく賭けています。この利点を念頭に置いて設計されています。ただし、S1の開発は、高レベルの推論機能をコストの一部で複製できることを証明しています。
S1の背後にある研究チームは、蒸留と呼ばれる技術を使用しました。
AIモデルをゼロから開発する代わりに、AlibabaのQwen AIラボから自由に利用できるモデルであるQWEN2.5-32B-Instructを採取し、1,000を慎重に選択して微調整しました。数学と推論の質問。
特に、データセットはGoogleのGemini 2.0 Flash Thinking Experimental Modelを使用して生成されました。 s1研究論文 Gemini Thinking Experimenticalから蒸留されたトレースと回答このモデルへの無料APIアクセスでは、競合するAIモデルを開発するために出力を使用して、S1がこれらの制限に違反しているかどうかについてコメントしていません。モデル
比較的小さなデータセットで訓練されているにもかかわらず、S1はOpenaiおよびDeepseekのモデルに匹敵するパフォーマンスレベルを達成します。能力を解くと、S1は56.7%の精度スコアを達成し、OpenaiのO1-Previewを上回り、Math500ベンチマークでは93%の精度に達し、Deepseek R1の結果に一致しました。 、モデルは、より広範な科学的知識にいくつかの制限を示しています。高度な物理学、生物学、化学の問題を含むGPQA-ダイヤモンドベンチマークでは、S1は59.6%を獲得し、OpenaiとGoogleのモデルに遅れをとっています。://winbuzzer.com/wp-content/uploads/2025/02/s1-32b-benchmarks-aime-2024-math-500-gpqa-diamond official.jpg”> S1モデルパフォーマンスベンチマークGoogleとopenai
それでも、最小限の計算で30分以内に訓練されたモデルの場合、これらの結果は、より大きなデータセットとより長いトレーニングサイクルが常に必要であるという仮定に挑戦します。
AI推論の改善
この研究は、S1の精度を改善する予期しない発見も明らかにしました。モデル自体を変更する代わりに、プロンプトが構造化された方法を実験しました。
この研究は、「モデルの思考プロセスを強制的に終了するか、アプリを追加して延長することにより、テスト時間計算を制御するための予算を強制することを開発します。モデルが終了しようとするとき、モデルの生成を何度も「待って」。これにより、モデルは答えを再確認し、しばしば誤った推論手順を修正します。」
単に、「待機」という言葉を迅速な強制されたS1に追加するだけで、回答を完了する前に応答を考慮してより多くの時間を費やすことができます。このアプローチは、テスト時間スケーリングの最近の研究と一致します。即座に応答する代わりに複雑なタスクへのより多くの計算。 S1のようなモデルは、排他的なAIシステムに多額の投資を行っている企業に課題を提示します。 。
しかし、より多くの研究者が高レベルのAI機能を安価に複製できることを実証しているため、これらの企業は、モデルをリバースエンジニアリングまたは小規模の競合他社に蒸留することから保護する新しい方法を探すことができます。 >
Openaiは、その技術へのアクセスを引き締める兆候をすでに示しています。同社は現在、その深い研究機能を有料のCHATGPT Proユーザーに制限しており、外部のAI開発者がその方法を研究する能力を制限しています。一方、GoogleはGemini 2.0 APIへのアクセスに厳格なレート制限を課し、S1のようなプロジェクトを使用して、その出力を使用して競合するAIモデルのトレーニングを明示的に禁止しています。または、AIに生成された出力が他のシステムのトレーニングに使用されないようにするための法的制限。ただし、オープンソースのAI研究環境でこれらのルールを実施することは非常に困難です。 AIの研究は進歩し続けており、オープンソースの革新と独自のAI開発との戦いはより強くなっています。 S1や sky-t1 などの蒸留AIモデルの成功は、AI能力を示唆しています。
主要なAI企業は、独自のモデルがAIのリスクをより適切に制御し、安全性、バイアス削減、規制のコンプライアンスを確保することを提供すると主張しています。しかし、独立した研究者は、オープンソースモデルが透明性を向上させ、専門家が企業の影響力のないAIシステムを監査および改良できるようにすることに反論しています。 AIの政策立案はこれまでのところ大規模モデルの管理に焦点を合わせてきましたが、低コストのAI複製技術の出現は、会話をデータアクセス制限と倫理的考慮事項にシフトする可能性があります。 AI業界を再構築する可能性があります。強力な推論AIを50ドル未満で再現できる場合、より小さなAIの研究チームとスタートアップはすぐに数十億ドルのAI企業と競争する能力を持っている可能性があります。
今のところ、S1はオープンソースのままです。その機能をテスト、変更、拡張できます。ただし、Openai、Google、およびその他のAIラボがこれを脅威と見なしている場合、AI蒸留方法に対するより厳格なAPIアクセスコントロール、ライセンス制限、さらには法的措置を推進する可能性があります。
将来は定義されますか?企業制御された独自のモデルによって、またはOPEN AIの研究が進行し続け、すべての人がアクセスできる高レベルのAIの推論を提供しますか?コメントであなたの考えを教えてください。