gergasi teknologi Cina Tencent telah mengeluarkan Hunyuanworld-Voyager, model AI baru yang menjadikan satu foto menjadi dunia 3D yang boleh diterokai. Syarikat itu membuka sumber alat itu pada 2 September. Ia mencipta video yang konsisten 3D yang pengguna boleh bergerak, menjadikan Tencent sebagai saingan teratas dalam perlumbaan untuk membina model dunia AI. Sistem memerlukan perkakasan yang kuat, memerlukan GPU dengan sekurang-kurangnya 60GB memori. Lesen model juga menghalang penggunaannya di Eropah dan UK. Siaran ini adalah sebahagian daripada ekosistem Hunyuan AI yang lebih luas, yang merangkumi model untuk terjemahan dan penalaran.

Dari satu imej ke dunia 3D yang boleh diterokai Output dwi ini adalah kritikal, kerana ia membolehkan pembinaan semula 3D langsung adegan yang dihasilkan. Pengguna boleh menentukan laluan kamera dengan arahan mudah seperti”ke hadapan”atau”turn_left”untuk menavigasi alam sekitar, meneroka imej statik sebagai ruang dinamik. Inovasi. Komponen penyebaran video”konsisten dunia”memastikan video yang dihasilkan tetap koheren. Sementara itu, A ‘Sistem Eksplorasi Dunia Long’Kepada pemain utama lain seperti Google DeepMind, yang membangunkan model dunia sendiri seperti Genie 3.

Walaupun matlamatnya sama, strategi asas mencerminkan tumpuan pada aplikasi praktikal. Seperti yang dinyatakan oleh seorang saintis yang mendalam,”Kami fikir model-model dunia adalah kunci pada laluan ke AGI, khususnya untuk agen-agen yang terkandung, di mana mensimulasikan senario dunia sebenar adalah sangat mencabar.”

Pada Stanford-Developed Worldscore Benchmark , Voyager mencapai skor keseluruhan 77.62. This places it ahead of competing models like WonderWorld (72.69) and CogVideoX-I2V (62.15), according to Hasil yang diterbitkan Tencent .

Model ini sangat cemerlang dalam kawalan objek (66.92), konsistensi gaya (84.89), dan kualiti visual subjektif (71.09). Walaupun ia menjaringkan tinggi dalam kawalan kamera pada 85.95, ia adalah kedua dalam kategori itu kepada Wonderworld’s 92.98. Tahap terperinci ini mempamerkan sistem yang sangat berkebolehan, jika tidak sempurna.

Kejayaan ini sebahagian besarnya dikaitkan dengan data latihannya. Tencent membina enjin data tersuai yang secara automatik memproses lebih daripada 100,000 klip video dari rakaman dunia sebenar dan membuat sintetik dari Unreal Engine. Paip automatik ini menyelesaikan kesesakan industri utama, menghapuskan keperluan untuk anotasi 3D manual yang perlahan dan mahal.

Pendekatan data-centric ini merupakan bahagian teras strategi AI yang lebih luas syarikat, yang mengutamakan kecekapan ke atas skala mentah. Seorang eksekutif Tencent baru-baru ini menjelaskan fokus ini, menyatakan,”Syarikat-syarikat China secara amnya mengutamakan kecekapan dan penggunaan penggunaan-penggunaan pelayan GPU dan tidak semestinya menjejaskan keberkesanan teknologi yang sedang dibangunkan. alat siap pengguna. Keperluan perkakasan adalah besar, menuntut minimum 60gb memori GPU untuk resolusi 540p, dengan 80GB disyorkan. Halangan yang tinggi ini mengehadkan penggunaannya kepada makmal penyelidikan yang dibiayai dengan baik dan syarikat besar, walaupun sifat sumbernya yang terbuka. Pada persediaan lapan-GPU, Tencent mendakwa peningkatan kelajuan 6.69x ke atas satu kad. Ini menjadikan eksperimen berskala yang lebih besar lebih sesuai untuk organisasi yang mampu membeli perkakasan.

Walau bagaimanapun, akses juga terhad oleh pelesenan. Model ini dilarang untuk digunakan di EU, UK, dan Korea Selatan, satu langkah yang mungkin mencerminkan pengiraan geopolitik atau kompetitif. Selain itu, sebarang perkhidmatan komersil dengan lebih daripada 100 juta pengguna aktif bulanan mesti mendapatkan lesen berasingan dari Tencent. Rintangan ini mencadangkan pelancaran yang berhati-hati dan strategik untuk teknologi yang berkuasa.

Categories: IT Info