Den kinesiske teknologigiganten Tencent har gitt ut Hunyuanworld-Voyager, en ny AI-modell som gjør et enkelt bilde til en utforskbar 3D-verden. Selskapet åpner verktøyet 2. september. Det lager 3D-konsistente videoer som brukerne kan bevege seg gjennom, noe Systemet trenger kraftig maskinvare, og krever en GPU med minst 60 GB minne. Modellens lisens blokkerer også bruken i Europa og Storbritannia. Denne utgivelsen er en del av Tencents bredere Hunyuan AI-økosystem, som inkluderer modeller for oversettelse og resonnement.

fra et enkelt bilde til en utforskbar 3D-verden

Voyager genererer både en standard RGB-video og tilsvarende dybdedata fra et enkelt bilde. Denne doble utgangen er kritisk, ettersom den gir mulighet for direkte 3D-rekonstruksjon av den genererte scenen. Brukere kan definere en kamerasti med enkle kommandoer som”fremover”eller”turn_left”for å navigere i miljøet, og utforske et statisk bilde som et dynamisk rom.

‘Long-Range World Exploration’ System Bruker en verdensbuffer og peker for å huske off-screen elementer, og forhindrer den visuelle artifacts tencen som en pest på en direkte generering på en direkte-skjerm. For andre store aktører som Google DeepMind, som utvikler sine egne verdensmodeller som Genie 3.

Mens målene er like, gjenspeiler den underliggende strategien et fokus på praktisk anvendelse. Som en DeepMind-forsker bemerket,”Vi tror verdensmodeller er nøkkelen på veien til AGI, spesielt for legemlige agenter, der simulering av ekte verdensscenarier er spesielt utfordrende.”

dominerende benchmarks med en datadrevet motor

Tencent’s Model har allerede demonstrert implessive motorer. På Stanford-utviklet WorldScore Benchmark oppnådde Voyager en topp total score på 77.62. Dette plasserer det foran konkurrerende modeller som Wonderworld (72.69) og Cogvideox-i2v (62.15), ifølge Tencents publiserte resultater .

Modellen utmerket seg spesielt i objektkontroll (66.92), stilkonsistens (84.89) og subjektiv visuell kvalitet (71.09). Mens det scoret høyt i kamerakontroll på 85.95, var det nummer to i den kategorien til Wonderworlds 92.98. Dette detaljnivået viser et svært dyktig, om ikke perfekt system.

Denne suksessen tilskrives i stor grad opplæringsdataene. Tencent bygde en tilpasset datimotor som automatisk behandlet over 100 000 videoklipp fra opptak i den virkelige verden og syntetiske gjengivelser fra Unreal Engine. Denne automatiserte rørledningen løser en stor flaskehals i industrien, og eliminerer behovet for langsom og dyre manuelle 3D-merknader.

Denne datasentriske tilnærmingen er en kjernedel av selskapets bredere AI-strategi, som prioriterer effektiviteten fremfor rå skala. En Tencent Executive forklarte nylig dette fokuset, og sa:”Kinesiske selskaper prioriterer generelt effektivitet og utnyttelse-effektiv bruk av GPU-serverne. Og som ikke nødvendigvis svekker den endelige effektiviteten til teknologien som er utviklet.” Forbrukerklart verktøy. Maskinvarekravene er betydelige, og krever minimum 60 GB GPU-minne for 540p oppløsning, med 80 GB anbefalt. Denne høye barrieren begrenser effektivt bruken til godt finansierte forskningslaboratorier og store selskaper, til tross for dens åpen kildekode.

For å imøtekomme disse ytelseskravene, støtter systemet parallellbehandling på tvers av flere GPU-er ved å bruke