研究者チームは、モデルサイズの拡大に依存しない人工知能(AI)推論を改善するための新しいアプローチを導入しました。自己検証を通じて信頼できるもの。初期の結果は、この方法がGemini V1.5 Proのようなモデルに、ベンチマーク推論テストでOpenaiのO1-Previewよりもエッジを与えることができることを示しています。
しかし、この方法はすでに議論を引き起こしています。一部の専門家は、クエリごとに複数の推論を実行する計算オーバーヘッドは、実際の生存率を制限する可能性があると主張しています。他の人は、AIが意味のある方法で効果的に「自分自身を検証する」ことができるかどうかを疑問視しています。パラメーターの数、トレーニングデータ、およびコンピューティングパワーの数を増やします。このアプローチは、神経スケーリング法に基づいており、大規模な言語モデルの急速な進歩を促進しました。しかし、最近の研究とOpenaiの最新のGPT-4.5モデルの相対的なパフォーマンスの低下は、スケーリングが高騰するコストにもかかわらず減少するリターンを提供し、研究者に代替方法を求めるように促していることを示唆しています。そして、最良の答えを選択します。このプロセスは、研究者が「暗黙的なスケーリング効果」と呼ぶものを作成し、追加のトレーニングデータまたはより大きなアーキテクチャなしでモデルをより能力を発揮させるようにします。
さらに、この方法には応答書き換えが組み込まれています。この方法では、AIが異なる形式で回答を再定式化して検証精度を向上させます。この研究によると、この手法は、MMLUやBigbench-Hardなどのマルチステップ推論ベンチマークの結果を大幅に改善し、単一応答モデルを上回ります。 GPT-4O、GPT-4.5、またはCLAUDE 3.7ソネットを含む大規模なモデルは、しばしば説得力のあるが不正確な応答を生成します。幻覚として知られている問題。彼らの結果は、この方法が従来の推論モデルと比較して推論タスクの精度を向上させることを示唆しています。
このアプローチの計算効率に関する疑問は残っています。すべてのクエリに対して複数の推論を実行すると、処理需要が増加します。これにより、この方法は検索エンジンや音声アシスタントなどのリアルタイムアプリケーションでは非実用的になります。効率的な推論ソリューションの需要の増加に対応しています。 nvidiaの最新のAIチップは推論のために最適化されたであり、検証ベースのスケーリングアプローチと潜在的に調整される可能性があります。負担?
サンプル、精査、尺度がAIスケーリングに関する新しい視点を提供している間、その実現可能性は不確実なままです。クエリごとの複数の推論に必要な処理能力の増加は、潜在性、スケーラビリティ、およびエネルギー消費に関する懸念をもたらします。
科学的研究や法的文書レビューなど、精度が速度よりも重要であるアプリケーションの場合、このアプローチは有意義な利点を提供する可能性があります。しかし、より遅延に敏感な環境の場合、追加される計算コストはその利点を上回る可能性があります。
焦点は、単にモデルのスケーリングから、推論を最適化するためのより効率的な方法を見つけることにシフトしています。検証ベースのスケーリングが業界標準になるか、ニッチな実験のままであるかどうかは、今後数年間で企業が精度、処理速度、エネルギー需要のバランスをとる方法に依存します。