Google DeepMind は、物理環境と仮想環境をシミュレートできる高度な人工知能 (AI) システムを作成する新しい取り組みを開始しました。

OpenAI の元研究者である Tim Brooks が現在、この取り組みを主導しています。 「ワールド モデル」—現実世界のダイナミクスを予測し、対話するように設計された AI システムについて。X への投稿の中で、ブルックス氏は次のように述べています。「DeepMind は、世界をシミュレートする大規模な生成モデルを作成するという野心的な計画を持っています。」

このプロジェクトは、汎用人工知能 (AGI) を進歩させるという Google のより大きな戦略と密接に関係しています。ワールド モデルは、人間が実行できるあらゆる知的タスクを実行できる AI の形式である AGI を達成するための基礎的なステップとみなされます。

新しいチームは、Gemini マルチモーダル AI を含む既存の DeepMind プロジェクトと協力します。 Veo ビデオ生成プラットフォームである Model と、インタラクティブ 3D シミュレーション用の環境ジェネレーターである Genie です。

DeepMind には、世界をシミュレートする大規模な生成モデルを作成するという野心的な計画があります。この使命を持った新しいチームを募集しています。一緒に構築しましょう!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl

— ティム・ブルックス (@_tim_brooks) 2025 年 1 月 6 日

AI ワールド モデリング

ワールド モデルは、主にデータ入力に反応する従来の AI システムとは大きく異なります。代わりに、これらのモデルは、テキスト、画像、ビデオなどのマルチモーダル データを分析することによって、複雑な環境をシミュレートします。この予測機能により、ロボット トレーニングからインタラクティブ ゲームまで、さまざまな分野での応用が可能になります。

職務内容

新しいチームの a> は、より広範な目標を強調しています。「ビデオおよびマルチモーダル データの事前トレーニングのスケーリングは、汎用人工知能へのクリティカル パス上にあると信じています。ワールド モデルは、視覚的な推論とシミュレーション、具体化されたエージェントの計画、リアルタイムのインタラクティブ エンターテイメントなど、数多くの領域を強化します。」

現実世界のダイナミクスをシミュレートすることにより、ワールド モデルはテストとテストのための仮想サンドボックスを提供します。

DeepMind の Genie プロジェクトは、12 月に発売された Genie 2 でプレイ可能な 3D 世界を生成できる可能性を垣間見せます。ユーザーのプロンプトに基づいたデモンストレーションには、セーリング遠征シミュレーションとサイバーパンクをテーマにした西部劇が含まれ、インタラクティブな環境を作成するプラットフォームの多用途性を示しました。

Google Genie 2 で作成されたインタラクティブなフレーム単位の AI シミュレーション デモ(出典: Google)

ワールド モデルの作業は本質的に複雑であり、最先端のインフラストラクチャと膨大な計算リソースが必要です。ワールド モデリングにおけるリサーチ エンジニアの役割に対する DeepMind の求人は、それに伴う技術的な課題を概説しています。責任には次のものが含まれます。

多様なデータ タイプを分析できる大規模なマルチモーダル トランスフォーマーのトレーニングビデオ データ パイプラインのインフラストラクチャを構築し、効率的なキュレーションとアノテーションを保証します。リアルタイム アプリケーション向けに推論システムを最適化し、シームレスな対話性を実現します。身体的な正確さと知能を測定するための定量的な評価指標を開発します。 AI による拡張されたデータ シーケンスの分析を可能にする超ロング コンテキスト トランスフォーマーの探索

スケーリングを重視することは、これらのシステムを堅牢かつ効率的にするという取り組みを反映しています。職務記述書の主要な責任として要約されている DeepMind の哲学は、このアプローチを強調しています。

「コア インフラストラクチャを実装し、物理世界の生成モデルを構築するための研究を実施する。大規模なワールド シミュレーターのトレーニング、物理知能のメトリクスとスケーリング則の開発、トレーニング データのキュレーションと注釈付け、リアルタイムのインタラクティブな生成の有効化、ワールド モデルとマルチモーダル言語モデルの統合を検討するための重要な問題を解決します。この苦い教訓を受け入れ、強力なシステムとインフラストラクチャに重点を置き、拡張可能なシンプルな方法を模索してください。」

応用例と影響

世界モデルには、さまざまな分野に多様な応用例があります。ロボット産業では、機械がオブジェクトの移動と操作を学習できる仮想環境の作成が可能になり、物理テストの時間とコストが削減されます。これは、Genesis によって開発されたオープンソースの物理シミュレーション プラットフォームです。カーネギーメロン大学と私立業界の研究者は、現実世界よりもはるかに高速に、完全な仮想環境で AI システムを 3D 物理学向けにトレーニングできる方法を示しています。

ゲームでは、ワールド モデルが動的で応答性の高い環境で没入型のエクスペリエンスを作成します。医療分野では、シミュレーションが診断や個別の治療計画に役立つ可能性があります。

これらの進歩には、その期待にもかかわらず、特に労働者の解雇に関して倫理的な懸念が伴います。アニメーション ギルドは、2026 年までに米国を拠点とする映画、テレビ、アニメーションの 10 万件以上の仕事が AI テクノロジーの影響を受ける可能性があると推定しています。

一部の世界モデルは、無許可のビデオ ゲーム映像に依存しているため、法的問題も発生します。トレーニング。 Google は自社の行為が YouTube の利用規約に準拠していると主張していますが、具体的なデータソースは明らかにしていません。

AI 分野における競争

DeepMind のイニシアチブの位置付けグーグルは他の大手企業と激しい競争を繰り広げている。 Nvidia の新しい Cosmos プラットフォームは物理 AI とロボット工学に焦点を当てていますが、 Fei-Fei Li の World Labs は、空間インテリジェンスを備えた大規模な世界モデルを開発しています。多様なアプリケーション。 OdysseyDecart などの新興企業も、

DeepMind の Gemini AI、Veo、Genie へのアクセスは、独自の利点を提供します。これらのシステムを統合することで、チームは結果を予測するだけでなく、変化するシナリオにリアルタイムで適応する AI の作成を目指しています。この機能は、適応性と汎用性が鍵となる AGI を達成するために非常に重要です。

DeepMind の AGI ビジョン

汎用人工知能はまだ遠いですが、実現可能です。目標としては、世界モデルはこの道における重要なステップです。これらのモデルは、物理環境と仮想環境をシミュレートすることにより、人間のように推論、計画、対話できる AI システムの基盤を提供します。

リサーチ エンジニアの職務記述書は、DeepMind のビジョンの本質を捉えています。視覚的な推論とシミュレーション、具現化されたエージェントの計画、リアルタイムのインタラクティブ エンターテイメントなど、数多くの領域に対応しています。」

Categories: IT Info