gjigandi kinez i teknologjisë Tencent ka lëshuar Hunyuanworld-Voyager, një model i ri AI që shndërron një foto të vetme në një botë të eksplorueshme 3D. Kompania e hapur burimin e mjetit më 2 shtator. Ai krijon video me konsistente 3D që përdoruesit mund të lëvizin, duke e bërë Tencent një rival të lartë në garë për të ndërtuar modele botërore të AI. Sistemi ka nevojë për pajisje të fuqishme, që kërkon një GPU me të paktën 60 GB memorie. Leja e modelit gjithashtu bllokon përdorimin e tij në Evropë dhe Mbretërinë e Bashkuar. Ky lëshim është pjesë e ekosistemit më të gjerë të Hunyuan AI të Tencent, i cili përfshin modele për përkthim dhe arsyetim. Kjo prodhim i dyfishtë është kritik, pasi lejon rindërtimin e drejtpërdrejtë 3D të skenës së gjeneruar. Përdoruesit mund të përcaktojnë një shteg kamerash me komanda të thjeshta si”përpara”ose”Turn_left”për të lundruar në mjedis, duke eksploruar një imazh statik si një hapësirë ​​dinamike. risitë. Një komponent”difuzioni i videos me konsistentë botërore”siguron që videoja e gjeneruar të mbetet koherent. Ndërkohë, a ‘Sistemi i eksplorimit botëror me rreze të gjatë Përdor një cache botërore dhe pikë për të kujtuar elementët e ekranit, duke parandaluar që artifaktet vizuale që plagosin shumë modele të përgjithshme të videos. Lojtarë të tjerë të mëdhenj si Google Deepmind, i cili po zhvillon modelet e veta botërore si Genie 3.

Ndërsa qëllimet janë të ngjashme, strategjia themelore pasqyron një përqendrim në aplikimin praktik. Siç vuri në dukje një shkencëtar i thellë,”ne mendojmë se modelet botërore janë thelbësore në rrugën drejt AGI, posaçërisht për agjentët e mishëruar, ku simulimi i skenarëve të botës reale është veçanërisht sfiduese.”Në Stanford-developed standarde botërore , Voyager arriti një rezultat të përgjithshëm të përgjithshëm prej 77.62. Kjo e vendos atë përpara modeleve konkurruese si Wonderworld (72.69) dhe Cogvideox-i2v (62.15), sipas .

Modeli veçanërisht shkëlqeu në kontrollin e objektit (66.92), konsistencën e stilit (84.89) dhe cilësinë vizuale subjektive (71.09). Ndërsa shënoi shumë në kontrollin e kamerës në 85.95, ishte e dyta në atë kategori për 92.98 të Wonderworld. Ky nivel i detajeve tregon një sistem shumë të aftë, nëse jo të përsosur,

Ky sukses i atribuohet kryesisht të dhënave të tij të trajnimit. Tencent ndërtoi një motor të të dhënave me porosi që përpunoi automatikisht mbi 100,000 videoklipe nga pamjet e botës reale dhe paraqitjet sintetike nga Unreal Engine. Ky tubacion i automatizuar zgjidh një ngushticë të madhe të industrisë, duke eleminuar nevojën për shënime të ngadalta dhe të shtrenjta manuale 3D. Një ekzekutiv i Tencent kohët e fundit shpjegoi këtë fokus, duke thënë,”Kompanitë kineze në përgjithësi janë duke i dhënë përparësi efikasitetit dhe përdorimit-përdorimi efikas i serverëve GPU. Dhe kjo nuk do të dëmtojë domosdoshmërisht efektivitetin përfundimtar të teknologjisë që po zhvillohet.”mjet i gatshëm për konsumatorë. Kërkesat e harduerit janë të konsiderueshme, duke kërkuar një minimum prej 60 GB memorje GPU për rezolucion 540p, me rekomanduar 80 GB. Kjo pengesë e lartë kufizon në mënyrë efektive përdorimin e saj në laboratorët kërkimorë të financuar mirë dhe korporatat e mëdha, megjithë natyrën e tij me burim të hapur. Në një konfigurim tetë-GPU, Tencent pretendon një përmirësim të shpejtësisë 6.69x mbi një kartë të vetme. Kjo i bën eksperimentet në shkallë më të madhe të jenë më të mundshme për organizatat që mund të përballojnë pajisjen.

Sidoqoftë, qasja është gjithashtu e kufizuar nga licencimi. Modeli është i ndaluar për t’u përdorur në BE, MB dhe Korenë e Jugut, një veprim që mund të pasqyrojë llogaritjet gjeopolitike ose konkurruese. Për më tepër, çdo shërbim tregtar me mbi 100 milion përdorues aktivë mujorë duhet të sigurojë një licencë të veçantë nga Tencent. Këto pengesa sugjerojnë një pjesëmarrje të kujdesshme, strategjike për teknologjinë e fuqishme.