騰訊的新的Hunyuanworld-Voyager AI將單張照片變成可探索的3D世界

中國科技巨頭騰訊已經發布了Hunyuanworld-Voyager，這是一種新的AI模型，將一張照片變成可探索的3D世界。該公司於9月2日開源該工具。它創建了用戶可以通過的3D一致的視頻，使Tencent成為構建AI World Models的競賽中的最高競爭對手。

該代碼為

從單個圖像到可探索的3D World

Voyager生成了標準的RGB視頻，也可以從單個圖像中產生相應的深度數據。此雙重輸出至關重要，因為它允許生成場景的直接3D重建。用戶可以使用簡單的命令來定義攝像機路徑，例如“向前”或“ turn_left”來瀏覽環境，探索靜態圖像作為動態空間。

創新。 “世界一致的視頻擴散”組件可確保生成的視頻保持連貫。同時，a ‘遠程探索’>’遠程世界探索’使用世界緩存並使用點cache來記住一個幕後元素，以防止視覺範圍，以防止許多型號的模型，以至於

，儘管目標相似，但基本策略反映了對實際應用的重點。正如一位DeepMind科學家指出的那樣:“我們認為世界模型是通往AGI的關鍵，特別是針對體現的代理商，在這種情況下，模擬現實世界情景特別具有挑戰性。”

用數據驅動的引擎

占主導地位。在Stanford開發的 WorldScore Benchmark ，Voyager取得了最高的總分77.62。根據。

模型在對象控制（66.92），樣式一致性（84.89）和主觀視覺質量（71.09）方面特別出色。雖然它在85.95的攝像頭控制中得分很高，但在該類別中排名第二，是Wonderworld的92.98。這種細節級別展示了一個高度有能力的系統，即使不是完美的系統。

這種成功在很大程度上歸因於其培訓數據。 Tencent構建了一種自定義數據引擎，該引擎從現實世界中的鏡頭和虛幻引擎的合成渲染中自動處理了100,000多個視頻片段。這條自動化管道解決了主要行業的瓶頸，消除了對緩慢且昂貴的3D註釋的需求。

這種以數據為中心的方法是公司更廣泛的AI策略的核心部分，該策略優先於原始規模。一位騰訊高管最近解釋了這一重點，他說:“中國公司通常會優先考慮效率和利用-對GPU服務器的利用率有效地利用。這並不一定會損害開發技術的最終有效性。工具。硬件要求很大，要求至少需要60gb的GPU內存以進行540p分辨率，並建議使用80GB。儘管具有開源性質，但這種高障礙有效地限制了其用於資助良好的研究實驗室和大公司。

為了滿足這些績效需求，該系統支持使用

但是，訪問也受許可的限制。該模型被禁止在歐盟，英國和韓國使用，這一舉動可能反映了地緣政治或競爭性計算。此外，任何擁有超過1億個活躍用戶的商業服務都必須與Tencent獲得單獨的許可證。這些障礙為強大的技術提出了謹慎，戰略性的推出。

騰訊的新的Hunyuanworld-Voyager AI將單張照片變成可探索的3D世界

Published by All Things Windows on September 4, 2025

從單個圖像到可探索的3D World

用數據驅動的引擎

IT Info

如何在任務欄上顯示Num Lock＆Caps鎖定指示器（11＆10）

IT Info

蘋果說，由於內部危機

IT Info

在Windows 11 File Explorer中顯示隱藏的系統文件

騰訊的新的Hunyuanworld-Voyager AI將單張照片變成可探索的3D世界

Published by All Things Windows on September 4, 2025

從單個圖像到可探索的3D World

用數據驅動的引擎

Related Posts

IT Info

如何在任務欄上顯示Num Lock＆Caps鎖定指示器（11＆10）

IT Info

蘋果說，由於內部危機

IT Info

在Windows 11 File Explorer中顯示隱藏的系統文件