中国の技術大手Tencentは、1つの写真を探索可能な3D世界に変える新しいAIモデルであるHunyuanworld-Voyagerをリリースしました。同社は9月2日にツールをオープンソーシングしました。ユーザーが移動できる3D親和的なビデオを作成し、TencentがAI World Modelsを構築するためにレースでトップライバルになるようにします。システムには強力なハードウェアが必要であり、少なくとも60GBのメモリを持つGPUが必要です。モデルのライセンスは、ヨーロッパと英国での使用もブロックしています。このリリースは、翻訳と推論のモデルを含むTencentのより広範なHunyuan AIエコシステムの一部です。

単一の画像から探索可能な3D世界に

voyagerは、標準のRGBビデオと単一の画像からの対応する深度データの両方を生成します。このデュアル出力は、生成されたシーンの直接の3D再構成を可能にするため、重要です。ユーザーは、「フォワード」や「turn_left」などの単純なコマンドでカメラパスを定義して環境をナビゲートし、動的な空間として静的画像を探索できます。主要な革新。 「世界一貫したビデオ拡散」コンポーネントは、生成されたビデオが一貫性のあるままであることを保証します。一方、a 「長距離世界探検」システムは、世界のキャッシュとポイントを使用してオフスクリーン要素を覚えているため、視覚アーティファクトが競争することを妨げる視覚アーティファクトを妨げます。 Google Deepmindのような他の主要なプレーヤーは、Genie 3のような独自の世界モデルを開発しています。

目標は似ていますが、根本的な戦略は実用的なアプリケーションに焦点を当てています。あるDeepmindの科学者が指摘したように、「世界モデルはAGIへの道、特に具体化されたエージェントのための鍵であり、現実世界のシナリオをシミュレートすることが特に困難です。」スタンフォード大学で開発された worldscoreベンチマーク、Voyagerは77.62のトップスコアを達成しました。これは、Wonderworld(72.69)やCogvideox-I2v(62.15)などの競合モデルよりも先を行っています。公開された結果。

モデルは、オブジェクトコントロール(66.92)、スタイルの一貫性(84.89)、および主観的な視覚品質(71.09)で特に優れていました。 85.95でカメラコントロールで高得点を獲得しましたが、Wonderworldの92.98のカテゴリで2番目でした。このレベルの詳細は、完全ではないにしても、非常に能力があるシステムを示しています。

この成功は、主にトレーニングデータに起因しています。 Tencentは、現実世界の映像から100,000を超えるビデオクリップを自動的に処理し、Unreal Engineからの合成レンダリングを自動的に処理しました。この自動化されたパイプラインは、主要な業界のボトルネックを解決し、ゆっくりと高価なマニュアル3Dアノテーションの必要性を排除します。

このデータ中心のアプローチは、生のスケールよりも効率を優先する会社のより広範なAI戦略の中心的な部分です。 Tencentのエグゼクティブは最近、この焦点を説明し、「中国企業は一般に、GPUサーバーの効率性と利用率を優先している。それは必ずしも開発中のテクノロジーの究極の有効性を損なうわけではない。」 道具。ハードウェアの要件はかなりのものであり、540p解像度で最低60GBのGPUメモリを要求し、80GBが推奨されます。この高い障壁は、オープンソースの性質にもかかわらず、その使用を十分に資金提供した研究室と大企業に効果的に制限します。

これらのパフォーマンスの需要に対処するために、システムは