Chinas Tech Company Meituan telah mengeluarkan model video AI baru, Longcat-Video, pada hari Isnin, menjadikannya bebas sebagai perisian sumber terbuka. Dikeluarkan pada platform seperti GitHub, Longcat-Video secara langsung mencabar model proprietari dari Openai dan Google. Langkah Meituan menjadikan alat kreatif yang canggih lebih mudah diakses oleh pemaju dan penyelidik di seluruh dunia.
Senibina bersatu untuk video jangka panjang
Dalam satu langkah penting untuk komuniti sumber terbuka, Meituan telah mengeluarkan
Meituan hanya bersumberkan longcat-video (13.6b), model asas video SOTA yang merupakan pesaing yang serius untuk perlumbaan model dunia.
sasaran=”_ blank”> pic.twitter.com/wuypa9kufv
Ini sering lebih cepat dan menghasilkan hasil yang lebih baik daripada cuba menghasilkan video resolusi tinggi penuh dalam satu perjalanan. Tambahan pula, LongCat-Video menggunakan blok perhatian jarang, pengoptimuman pintar yang membolehkan model memfokuskan kuasa pengiraannya pada bahagian-bahagian yang paling relevan dari urutan video dan bukannya memproses setiap hubungan piksel, dengan ketara mengurangkan beban pemprosesan. Pencabar sumber terbuka yang hebat dalam bidang yang dikuasai oleh sistem tertutup. Laporan teknikal model Pada penanda aras VBench 2.0, Longcat-Video mencapai skor keseluruhan sebanyak 62.11%. Ia melampaui semua pesaing yang diuji dalam dimensi”komonsense”dengan skor 70.94%, mencadangkan pemahaman yang kuat terhadap realisme fizikal dan gerakan yang munasabah.
“Generasi video adalah laluan kritikal ke arah model dunia, dengan kesimpulan video panjang yang efisien sebagai keupayaan utama,”kata pasukan Longcat Meituan. Longcat-Video mewakili langkah kritikal dalam menyatakan pengetahuan simulasi secara visual.
Selain keupayaannya yang kuat, saiz besar model adalah penghalang perkakasan yang signifikan untuk penyelidik dan penggemar individu. Soalan-soalan yang berlarutan juga tetap mengenai provinsi dataset video yang luas yang digunakan untuk latihan, topik yang sensitif di seluruh industri AI generatif. Keupayaan untuk menolak sempadan bercerita yang didorong oleh AI akan menjadi lebih jelas.