Chiński gigant technologii Tencent wydał Hunyuanworld-Voyager, nowy model AI, który zamienia jedno zdjęcie w wyjątkowy świat 3D. Firma opętała otwarcie narzędzia 2 września. Tworzy filmy konsystencyjne 3D, przez które użytkownicy mogą się poruszać, dzięki czemu Tencent jest najlepszym rywalem w wyścigu o budowę modeli światowych AI.
Kod to
Voyager generuje zarówno standardowe wideo RGB, jak i odpowiednie dane głębokości z jednego obrazu. To podwójne wyjście ma kluczowe znaczenie, ponieważ pozwala na bezpośrednią rekonstrukcję 3D wygenerowanej sceny. Użytkownicy mogą zdefiniować ścieżkę aparatu z prostymi poleceniami, takimi jak „naprzód” lub „tufur_left”, aby poruszać się po środowisku, eksplorując obraz statyczny jako przestrzeń dynamiczną. z jednego obrazu do wyjątkowego świata 3D
Podczas gdy cele są podobne, podstawowa strategia odzwierciedla nacisk na praktyczne zastosowanie. Jak zauważył jeden z głębinowych naukowców: „Uważamy, że modele światowe są kluczem do ścieżki do AGI, szczególnie dla agentów wcielonych, gdzie symulowanie scenariuszy w świecie rzeczywistym jest szczególnie trudne.” Model „
dominujące wskaźniki z silnikiem opartym na danych
Tencenta. W opracowaniu Stanford WorldScore Benchmark , Voyager osiągnął najwyższy wynik 77,62. Stawia to przed konkurencyjnymi modelami, takimi jak WonderWorld (72.69) i Cogvideox-i2v (62.15), zgodnie z XDIT . W konfiguracji ośmiu GPU Tencent twierdzi, że poprawa prędkości 6,69x w stosunku do jednej karty. To sprawia, że eksperymenty na większą skalę są bardziej wykonalne dla organizacji, które mogą sobie pozwolić na sprzęt.
Jednak dostęp jest również ograniczony przez licencjonowanie. Model jest zabroniony do stosowania w UE, Wielkiej Brytanii i Korei Południowej, który może odzwierciedlać obliczenia geopolityczne lub konkurencyjne. Ponadto każda usługa komercyjna z ponad 100 milionami aktywnych użytkowników musi zapewnić osobną licencję od Tencent. Te przeszkody sugerują ostrożne, strategiczne wdrożenie dla potężnej technologii.