OpenAI は、複雑な論理的推論を必要とするタスクに優れた性能を発揮するように設計された最新の人工知能モデル o3 および o3-Mini を発表しました。

OpenAI の「12 Days of OpenAI」イベントの終了時に発表されました。 、このモデルは初期の o1 モデル ファミリの成功を基盤としており、推論時間の調整などの機能強化が組み込まれており、o3 は「思慮深いことが必要となるますます複雑なタスク」を処理できる AI の開発における前進であると述べています。

新しいモデルは安全研究者によるプレビューに利用可能であり、来年初めにはより広範な一般公開が予定されています。

12 日目: OpenAI o3 の初期評価 (はい、番号を省略しました)https://t.co/iWXg9IGuZM

— OpenAI (@OpenAI) 2024 年 12 月 20 日

強化された推論機能とアプリケーション

o3 ファミリには、AI の論理的な問題解決能力の向上を目的としたいくつかの機能が導入されています。最も注目すべき点は、このモデルを使用すると、ユーザーが推論に割り当てられる時間を調整して、速度と精度のバランスを取ることができることです。

OpenAI によると、この機能により、o3 は高度な数学、プログラミング、科学分析を含む幅広いタスクにわたってより優れたパフォーマンスを発揮できるようになります。

他の推論に焦点を当てたモデルとは異なり、o3 はo1 のように、「プライベート チェーン オブ 思考」手法を採用しています。これにより、解決策を提供する前に、問題をより小さな論理的なステップに分割します。OpenAI は、このアプローチによりエラーが最小限に抑えられ、モデルが複雑なクエリに対してより信頼性の高い結果を確実に提供できると主張しています。

アルトマン氏は、新しいモデルは従来人間の問題解決能力に依存していたタスクに対処するように設計されていると述べました。

主要なベンチマークのパフォーマンス

OpenAI の内部評価では、o3 は、AI の一般化をテストするために設計されたベンチマークである ARC-AGI でスコアを達成しました。のo1 の最高スコア 32% と比較して、他のベンチマークは o3 の強みをさらに強調しています:

EpochAI Frontier Math: o3 は問題の 25.2% を解決し、他のすべての AI システムを上回りました。 2%で。 FrontierMath は、高度な数学的推論における AI システムの機能を評価します。 このベンチマークは、計算数論、実数解析、代数幾何学、圏論など、現代数学の主要分野にわたる数百のオリジナルの非常に難しい数学問題で構成されています。
AIME 2024: o3 スコア96.7% で、ミスは 1 問だけでした。 AIME (人工知能数学評価) 2024 ベンチマークは、 に基づいて AI モデルの数学的問題解決能力を評価するように設計されています。 href=”https://artofproblemsolve.com/wiki/index.php/2024_AIME_I?srsltid=AfmBOoq4-nrZDm_y6ifutsNQrD8vMLYfw0RZanaGMiF5CjYk8PCFAQwg”>2024 年 AIME 試験。この評価は、米国の優秀な数学高校生のスキルをテストすることで知られる米国招待数学試験で遭遇するものと同様の、複雑な数学的課題に焦点を当てています。
GPQA ダイヤモンド: 87.7% の正解率を達成し、高度な論理クエリへの応答に優れています。 GPQA ダイヤモンドは、生物学、物理学、化学にわたる高度な科学的推論における AI システムの能力を大学院レベルで評価します。このベンチマークは、高度なスキルを持つ非専門家にとっても難しいように設計された 198 個の非常に難しい多肢選択式の質問で構成されています。

ARC-AGI の共同作成者である François Chollet は、この進歩は確実だが、1 つの側面のみを反映していると述べています。

今日、OpenAI は次世代推論モデルである o3 を発表しました。私たちは OpenAI と協力して ARC-AGI でテストしましたが、これは AI を新しいタスクに適応させる上で大きな進歩であると考えています。

低レベルのセミプライベート評価で 75.7% のスコアを獲得しました。-コンピューティング モード (タスクごとに 20 ドル… pic.twitter.com/ESQ9CNVCEA

— François Chollet (@fchollet) 2024 年 12 月 20 日

Chollet はいくつかの例も共有しましたo3 がハイコンピューティング設定で解決できなかったタスクの数、これは、さらなる分析のために GitHub で利用できます

また、これは非常に困難になります。新しいシステムの長所と限界を分析することが重要です。o3 がハイコンピューティング設定で解決できなかったタスクの例をいくつか示します (たとえ、数百万の CoT 検索トークンを生成し、数千ドルのコンピューティングを消費していても)。 pic.twitter.com/IULyjAlxwV

— François Chollet (@fchollet) 12 月 20 日2024

安全性の懸念と制限

その成果にもかかわらず、o3 は倫理的な展開と安全性について懸念を引き起こしています。 o1 のような推論モデルは、従来の AI と比較して、欺瞞的な動作をする傾向が高いことが判明しました。 OpenAI は、これらのリスクが o3 に存続する可能性があることを認識しており、安全性テストを実施するために外部組織と積極的に協力しています。

アルトマン氏は最近のインタビューで、高度な AI システムのリリースは、確実な安全性を確保するための強力な連邦フレームワークによって導かれるべきであると示唆しました。

推論 AI の台頭と業界の競合

OpenAI の発表は、AI 開発者間の競争が激化している時期に行われました。つい昨日、Google は、CEO の Sundar Pichai 氏が「これまでで最も思慮深いシステム」と評する Gemini 2.0 Flash Thinking モデルを発表しました。一方、Alibaba と DeepSeek も推論に焦点を当てたモデルをリリースし、AI 開発のこの専門分野への移行を示しています。

推論 AI の人気は、モデルのスケーリングだけでは大幅なパフォーマンス向上を達成するのにもはや十分ではないというコンセンサスが高まっていることを反映しています。しかし、これらのシステムは大量の計算リソースを必要とするため、そのシステムに関する疑問が生じています。

より広範なコンテキスト: o3 と汎用人工知能

o3 による OpenAI の進歩により、汎用人工知能 (AGI) に関する議論が再燃しています。同社は、AGI を「最も経済的に価値のある作業において人間を上回るパフォーマンスを発揮する」システムと定義しています。 AGI の達成は、OpenAI と Microsoft のパートナーシップに経済的な影響を及ぼし、同社のテクノロジーへのアクセスに関する契約が変更される可能性があります。

Altman 氏は o3 を AGI と宣言する手前で立ち止まりましたが、ベンチマークでの好調なパフォーマンスは、OpenAI が少しずつ進んでいることを示唆しています。この野心的な目標に近づきます。ただし、モデルの機能を確認するには、外部検証とさらなるテストが重要です。

「12 日間の OpenAI」期間中の以前の発表

12 月 19 日、OpenAI は、Mac ユーザーが ChatGPT を使用するためのよりインタラクティブでハンズフリーのアプローチを体験できるようになり、人間とコンピューターの対話の間の境界線をさらに曖昧にする、macOS 用の ChatGPT デスクトップ アプリのアップデートを発表しました。

18 日、OpenAI は ChatGPT のフリーダイヤル番号と WhatsApp へのアクセスを開始し、AI チャットボットへのアクセスが容易になりました。

12 月 17 日には、フルバージョンの OpenAI の o1 モデルへの API アクセスが提供され、音声インタラクション用のリアルタイム API が強化されました。

12 月 16 日、OpenAI は、ChatGPT ライブ ウェブ検索機能をすべてのユーザーが利用できるようにしました。

12 月 14 日、ChatGPT に新しいカスタマイズ オプションが導入され、ユーザーはタスクを合理化し、プロジェクトを効果的に管理できるようになりました。プロジェクトを使用すると、ユーザーはチャット、ファイル、カスタム指示を専用のフォルダーにグループ化し、タスクとワークフローを管理するための整理されたワークスペースを作成できます。

ChatGPT の高度な音声モードの大幅な改善として、12 月 12 日に OpenAI に追加されました。

12 月 11 日、OpenAI は、テキストとコードの両方に高度なツールを提供する共同編集ワークスペースである Canvas を完全にリリースしました。洗練。 2024 年 10 月にベータ版として最初にリリースされた Canvas は、ChatGPT の標準インターフェイスを分割画面デザインに置き換え、ユーザーが AI と会話を交わしながらテキストやコードで作業できるようにします。

Python の実行機能が追加されました。 Canvas の優れた機能で、開発者はプラットフォーム内で直接スクリプトを作成、テスト、デバッグできます。 OpenAI は、ライブ イベント中に Python を使用してデータ視覚化を生成および調整することにより、その有用性を実証しました。 OpenAI は、この機能を「アイデアの生成と実装の間の摩擦を軽減する」と説明しました。

12 月 9 日、OpenAI は、テキスト プロンプトからビデオを生成する高度な AI ツール Sora を正式に開始し、クリエイティブ AI の新時代の到来を告げました。有料の ChatGPT アカウントに統合された Sora を使用すると、ユーザーは静止画をアニメーション化し、既存のビデオを拡張し、シーンを結合した物語に統合できます。

12 月 7 日にリリースされたのは Reinforcement でした。 Fine-Tuning は、業界固有のアプリケーション向けに AI モデルをカスタマイズできるように設計された新しいフレームワークであり、開発者が提供するデータセットとグレーディング システムを使用して AI モデルをトレーニングすることで、AI モデルを改善するための OpenAI の最新のアプローチです。

12 月 5 日、OpenAI は、高度な AI 機能を求める専門家や企業を対象とした、月額 200 ドルの新しいプレミアム サブスクリプション層である ChatGPT Pro を発表しました。需要の高いワークフロー。

Categories: IT Info