Metaは、ビデオから学習する高度なAIシステムであるV-Jepa 2をリリースしました。同社は6月11日に、オープンソースの「ワールドモデル」は、より有能で適応的なインテリジェントなエージェントを構築するための重要なステップである実世界の相互作用を理解して予測するように設計されていることを発表しました。これらのモデルは、現実の内部シミュレーションを構築することにより、AIが機能する前に「考える」ことができ、複雑なタスクをより人間のような方法で計画します。 METAの場合、このプロジェクトは、産業用ロボット工学から拡張現実のメガネに至るまでの潜在的なアプリケーションを備えた高度な機械インテリジェンスの長期的なビジョンの重要な部分です。前身のV-Jepaからの重要な進化を表しています。その最初のバージョンはビデオから学習のコアコンセプトを確立しましたが、この新しい1.20億パラメーターシステムは、デジタルインテリジェンスと物理世界のギャップを埋めることを目的として、実用的な計画と制御のために特別に強化されています。 src=”data:image/svg+xml; nitro-empty-id=mty0mjo3ntg=-1; base64、phn2zyb2awv3qm94psiwidagotywidi5 mcigd2lkdgg9ijk2mcigagvpz2h0psiyotaiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
世界モデルとは何ですか?
メタの戦略の中核は、物理学や空間的ダイナミクスなど、環境の内部表現を学習する生成AIシステムの「世界モデル」の概念です。文の次の単語を予測する大規模な言語モデルとは異なり、世界モデルは世界自体の将来の状態を予測しようとします。世界モデルは周囲を観察し、次に何が起こるかを予測します。テキストベースの予測よりもはるかに複雑なタスクです。
この機能により、マシンは現実に試みる前に潜在的なアクションとその結果を内部的にシミュレートできます。ヨーロッパのIBM ResearchのディレクターであるJuanBernabé-Morenoとして、
これは、劇的に学習を加速し、安全性を向上させ、ロボットへの道を舗装します。学習
V-Jepa 2のインテリジェンスは、2段階のトレーニングプロセスで偽造されています。第一に、100万時間以上のビデオと100万の画像の大規模なデータセットを分析することにより、世界の基本的な理解を構築します。 この効率により、モデルはオブジェクトの相互作用と動きに関する高レベルの概念を学習することに集中できます。
第2段階により、モデルはロボット工学に役立ちます。ここでは、 Open-Source Droid Dataset からのわずか62時間のビデオと制御入力を使用して、アクションコンディショニングデータで微調整されています。これにより、特定のアクションを物理的な結果に接続するようにモデルが教えられ、Metaによれば、「新しい環境でなじみのないオブジェクトと対話するゼロショットロボット計画」に使用できるシステムが生まれます。
ただし、a 最初のV-jepa は、非常に短いビデオクリップへのその信頼が複雑で長期的な相互作用を理解する能力を制限する可能性があることに注意してください。物理的知能の混雑したフィールド
メタの発表は真空では起こりません。ロボット工学の基礎モデルを作成するための推進は、主要な技術ラボにとって重要な戦場です。 3月、GoogleはGemini Roboticsモデルを発表しました。これは、ロボットが最小限のトレーニングで学習できるようにビジョン、言語、およびアクションを同様に統合しました。
重要な補完技術は、超現実的なシミュレーションです。 Genesis AIシミュレーターのようなプラットフォームは、これらのモデルを安全かつ効率的にトレーニングするために不可欠な物理的環境を迅速にシミュレートできます。 ジムファンは、プロジェクトに関与する研究者であり、そのパワーを鮮明に説明しました。これは、物理的な世界の近くの変動のためにAIを訓練するために必要なデータボトルネックを克服することに業界全体の焦点を強調しています。モデルのコードは hugging hugging face でアクセスできます。テクノロジーを広く利用できるようにすることにより、メタは進歩を加速できるコミュニティを育成したいと考えています。ただし、GitHubでのコミュニティディスカッションが現在献身なし、ユーザーフレイダイアーアパイ。 AIが物理学の理由をどれだけうまくモデル化するかを厳密にテストします。その発表で、メタは、これらのタスクの人間とトップモデルの間の大きなパフォーマンスギャップに注目し、必要な改善のための明確な方向性を強調しています。学習
Metaのオープン戦略は、モデルの制限のパブリックベンチマークと組み合わせて、先のタスクの計り知れない困難を強調しています。 V-Jepa 2は重要なステップですが、複雑な物理的世界とシームレスにナビゲートして対話できる高度な機械インテリジェンスを作成するための長い道を照らします。