A gigante da tecnologia chinesa Tencent lançou Hunyuanworld-Voyager, um novo modelo de IA que transforma uma única foto em um mundo 3D explorável. A empresa abre a ferramenta em 2 de setembro. Cria vídeos consistentes em 3D pelos quais os usuários podem passar, tornando a Tencent um rival superior na corrida para construir modelos mundiais de IA. O sistema precisa de hardware poderoso, exigindo uma GPU com pelo menos 60 GB de memória. A licença do modelo também bloqueia seu uso na Europa e no Reino Unido. Este lançamento faz parte do ecossistema Hunyuan AI mais amplo de Tencent, que inclui modelos de tradução e raciocínio. Essa saída dupla é crítica, pois permite a reconstrução 3D direta da cena gerada. Os usuários podem definir um caminho da câmera com comandos simples como”avançar”ou”turn_left”para navegar no ambiente, explorando uma imagem estática como um espaço dinâmico. inovações. Um componente”Difusão de vídeo consistente mundial”garante que o vídeo gerado permaneça coerente. Enquanto isso, a ‘Sistema de Exploração Mundial de Longo Range’ Usa um cache mundial e o ponto de corte direta para que os elementos de video-video de maneira quementos. Jogadores como o Google Deepmind, que estão desenvolvendo seus próprios modelos mundiais como a Genie 3.
Embora os objetivos sejam semelhantes, a estratégia subjacente reflete um foco na aplicação prática. Como observou um cientista profundo: “Achamos que os modelos mundiais são essenciais no caminho para a AGI, especificamente para agentes incorporados, onde simular cenários do mundo real é particularmente desafiador.”
Dominando os benchmarks com um mecanismo de Dados, com um mecanismo implementado. No Stanford-Developed WorldScore Benchmark , a Voyager alcançou uma pontuação geral de 77,62. This places it ahead of competing models like WonderWorld (72.69) and CogVideoX-I2V (62.15), according to Tencent’s published Resultados .
O modelo se destacou particularmente no controle de objetos (66,92), consistência do estilo (84,89) e qualidade visual subjetiva (71.09). Embora tenha pontuado altamente no controle da câmera em 85,95, foi o segundo nessa categoria para o 92,98 do WonderWorld. Esse nível de detalhe mostra um sistema altamente capaz, se não perfeito. A Tencent construiu um mecanismo de dados personalizado que processou automaticamente mais de 100.000 videoclipes de imagens do mundo real e renderizações sintéticas do Unreal Engine. Este pipeline automatizado resolve um grande gargalo do setor, eliminando a necessidade de anotações 3D manuais lentas e caras. Um executivo da Tencent explicou recentemente esse foco, afirmando: “As empresas chinesas geralmente estão priorizando a eficiência e a utilização-utilização eficiente dos servidores da GPU. E isso não prejudica necessariamente a eficácia final da tecnologia que está sendo desenvolvida. ferramenta. Os requisitos de hardware são substanciais, exigindo um mínimo de 60 GB de memória da GPU para resolução de 540p, com 80 GB recomendados. Essa alta barreira limita efetivamente seu uso a laboratórios de pesquisa bem financiados e grandes corporações, apesar de sua natureza de código aberto. Em uma configuração de oito GPU, a Tencent reivindica uma melhoria de velocidade de 6,69x em relação a uma única carta. Isso torna os experimentos em larga escala mais viáveis para organizações que podem pagar o hardware.
No entanto, o acesso também é limitado pelo licenciamento. O modelo é proibido para uso na UE, Reino Unido e Coréia do Sul, um movimento que pode refletir cálculos geopolíticos ou competitivos. Além disso, qualquer serviço comercial com mais de 100 milhões de usuários ativos mensais deve garantir uma licença separada da Tencent. Esses obstáculos sugerem uma implantação estratégica e cautelosa para a tecnologia poderosa.