Chinas Tech Company Meituan telah mengeluarkan model video AI baru, Longcat-Video, pada hari Isnin, menjadikannya bebas sebagai perisian sumber terbuka. Dikeluarkan pada platform seperti GitHub, Longcat-Video secara langsung mencabar model proprietari dari Openai dan Google. Langkah Meituan menjadikan alat kreatif yang canggih lebih mudah diakses oleh pemaju dan penyelidik di seluruh dunia.

Senibina bersatu untuk video jangka panjang

Dalam satu langkah penting untuk komuniti sumber terbuka, Meituan telah mengeluarkan

Meituan hanya bersumberkan longcat-video (13.6b), model asas video SOTA yang merupakan pesaing yang serius untuk perlumbaan model dunia.

sasaran=”_ blank”> pic.twitter.com/wuypa9kufv

-Modelscope (@Modelscope2022) Banyak model yang mengalami kerosakan pesat dalam kualiti, di mana koheren temporal hilang dan artifak visual berkumpul selama beberapa saat. Ciri-ciri yang menonjol Longcat-Video adalah keupayaannya untuk menjana video yang stabil dan lama pada resolusi 720p yang lancar dan 30 bingkai sesaat. Menurut pasukan itu,”Longcat-Video secara pretrained pada tugas-tugas yang tidak dapat dipertahankan, membolehkannya menghasilkan video yang panjang tanpa warna atau degradasi yang berkualiti. Buat proses komputasi intensif ini praktikal, model ini menggunakan beberapa teknik yang berfokus pada kecekapan. Seperti yang dijelaskan oleh Meituan,”Longcat-Video menghasilkan video 720p, 30fps dalam beberapa minit dengan menggunakan strategi penjanaan kasar-ke-halus di sepanjang kedua-dua”video yang lebih rendah dan lebih tinggi dan lebih tinggi daripada itu. Tekstur.

Ini sering lebih cepat dan menghasilkan hasil yang lebih baik daripada cuba menghasilkan video resolusi tinggi penuh dalam satu perjalanan. Tambahan pula, LongCat-Video menggunakan blok perhatian jarang, pengoptimuman pintar yang membolehkan model memfokuskan kuasa pengiraannya pada bahagian-bahagian yang paling relevan dari urutan video dan bukannya memproses setiap hubungan piksel, dengan ketara mengurangkan beban pemprosesan. Pencabar sumber terbuka yang hebat dalam bidang yang dikuasai oleh sistem tertutup. Laporan teknikal model Pada penanda aras VBench 2.0, Longcat-Video mencapai skor keseluruhan sebanyak 62.11%. Ia melampaui semua pesaing yang diuji dalam dimensi”komonsense”dengan skor 70.94%, mencadangkan pemahaman yang kuat terhadap realisme fizikal dan gerakan yang munasabah.

“Generasi video adalah laluan kritikal ke arah model dunia, dengan kesimpulan video panjang yang efisien sebagai keupayaan utama,”kata pasukan Longcat Meituan. Longcat-Video mewakili langkah kritikal dalam menyatakan pengetahuan simulasi secara visual.

Selain keupayaannya yang kuat, saiz besar model adalah penghalang perkakasan yang signifikan untuk penyelidik dan penggemar individu. Soalan-soalan yang berlarutan juga tetap mengenai provinsi dataset video yang luas yang digunakan untuk latihan, topik yang sensitif di seluruh industri AI generatif. Keupayaan untuk menolak sempadan bercerita yang didorong oleh AI akan menjadi lebih jelas.

Categories: IT Info