中國科技巨頭騰訊已經發布了Hunyuanworld-Voyager,這是一種新的AI模型,將一張照片變成可探索的3D世界。該公司於9月2日開源該工具。它創建了用戶可以通過的3D一致的視頻,使Tencent成為構建AI World Models的競賽中的最高競爭對手。
從單個圖像到可探索的3D World
Voyager生成了標準的RGB視頻,也可以從單個圖像中產生相應的深度數據。此雙重輸出至關重要,因為它允許生成場景的直接3D重建。用戶可以使用簡單的命令來定義攝像機路徑,例如“向前”或“ turn_left”來瀏覽環境,探索靜態圖像作為動態空間。
創新。 “世界一致的視頻擴散”組件可確保生成的視頻保持連貫。同時,a ‘遠程探索’>’遠程世界探索’使用世界緩存並使用點cache來記住一個幕後元素,以防止視覺範圍,以防止許多型號的模型,以至於
,儘管目標相似,但基本策略反映了對實際應用的重點。正如一位DeepMind科學家指出的那樣:“我們認為世界模型是通往AGI的關鍵,特別是針對體現的代理商,在這種情況下,模擬現實世界情景特別具有挑戰性。”
用數據驅動的引擎
模型在對象控制(66.92),樣式一致性(84.89)和主觀視覺質量(71.09)方面特別出色。雖然它在85.95的攝像頭控制中得分很高,但在該類別中排名第二,是Wonderworld的92.98。這種細節級別展示了一個高度有能力的系統,即使不是完美的系統。
這種成功在很大程度上歸因於其培訓數據。 Tencent構建了一種自定義數據引擎,該引擎從現實世界中的鏡頭和虛幻引擎的合成渲染中自動處理了100,000多個視頻片段。這條自動化管道解決了主要行業的瓶頸,消除了對緩慢且昂貴的3D註釋的需求。
這種以數據為中心的方法是公司更廣泛的AI策略的核心部分,該策略優先於原始規模。一位騰訊高管最近解釋了這一重點,他說:“中國公司通常會優先考慮效率和利用-對GPU服務器的利用率有效地利用。這並不一定會損害開發技術的最終有效性。 工具。硬件要求很大,要求至少需要60gb的GPU內存以進行540p分辨率,並建議使用80GB。儘管具有開源性質,但這種高障礙有效地限制了其用於資助良好的研究實驗室和大公司。
為了滿足這些績效需求,該系統支持使用
但是,訪問也受許可的限制。該模型被禁止在歐盟,英國和韓國使用,這一舉動可能反映了地緣政治或競爭性計算。此外,任何擁有超過1億個活躍用戶的商業服務都必須與Tencent獲得單獨的許可證。這些障礙為強大的技術提出了謹慎,戰略性的推出。