Chiński gigant technologii Tencent wydał Hunyuanworld-Voyager, nowy model AI, który zamienia jedno zdjęcie w wyjątkowy świat 3D. Firma opętała otwarcie narzędzia 2 września. Tworzy filmy konsystencyjne 3D, przez które użytkownicy mogą się poruszać, dzięki czemu Tencent jest najlepszym rywalem w wyścigu o budowę modeli światowych AI.

Kod to

z jednego obrazu do wyjątkowego świata 3D

Voyager generuje zarówno standardowe wideo RGB, jak i odpowiednie dane głębokości z jednego obrazu. To podwójne wyjście ma kluczowe znaczenie, ponieważ pozwala na bezpośrednią rekonstrukcję 3D wygenerowanej sceny. Użytkownicy mogą zdefiniować ścieżkę aparatu z prostymi poleceniami, takimi jak „naprzód” lub „tufur_left”, aby poruszać się po środowisku, eksplorując obraz statyczny jako przestrzeń dynamiczną.

„Długa alange światowa eksploracja” Używa światowej pamięci podręcznej i punktu, aby pamiętać o elementach poza ekranem, zapobiegając artefakcjom wizualnym, które budzą wiele modeli wideo generatywnych wideo. Inni główni gracze, tacy jak Google DeepMind, który rozwija własne światowe modele, takie jak Genie 3.

Podczas gdy cele są podobne, podstawowa strategia odzwierciedla nacisk na praktyczne zastosowanie. Jak zauważył jeden z głębinowych naukowców: „Uważamy, że modele światowe są kluczem do ścieżki do AGI, szczególnie dla agentów wcielonych, gdzie symulowanie scenariuszy w świecie rzeczywistym jest szczególnie trudne.” Model „

dominujące wskaźniki z silnikiem opartym na danych

Tencenta. W opracowaniu Stanford WorldScore Benchmark , Voyager osiągnął najwyższy wynik 77,62. Stawia to przed konkurencyjnymi modelami, takimi jak WonderWorld (72.69) i Cogvideox-i2v (62.15), zgodnie z XDIT . W konfiguracji ośmiu GPU Tencent twierdzi, że poprawa prędkości 6,69x w stosunku do jednej karty. To sprawia, że ​​eksperymenty na większą skalę są bardziej wykonalne dla organizacji, które mogą sobie pozwolić na sprzęt.

Jednak dostęp jest również ograniczony przez licencjonowanie. Model jest zabroniony do stosowania w UE, Wielkiej Brytanii i Korei Południowej, który może odzwierciedlać obliczenia geopolityczne lub konkurencyjne. Ponadto każda usługa komercyjna z ponad 100 milionami aktywnych użytkowników musi zapewnić osobną licencję od Tencent. Te przeszkody sugerują ostrożne, strategiczne wdrożenie dla potężnej technologii.