Perusahaan teknologi Tiongkok Meituan telah merilis model video AI baru, LongCat-Video, pada hari Senin, sehingga tersedia secara gratis sebagai perangkat lunak sumber terbuka.

Model 13,6 miliar parameternya yang kuat menghasilkan video berkualitas tinggi berdurasi beberapa menit dari teks atau gambar, sebuah lompatan signifikan bagi teknologi sumber terbuka. Dirilis pada platform seperti GitHub, LongCat-Video secara langsung menantang model kepemilikan dari OpenAI dan Google.

Meituan memposisikan rilis ini sebagai langkah penting menuju pengembangan “model dunia” yang lebih maju dengan memecahkan masalah umum seperti penurunan kualitas dalam video AI berdurasi panjang. Langkah Meituan membuat alat kreatif canggih lebih mudah diakses oleh developer dan peneliti di seluruh dunia.

Arsitektur Terpadu untuk Video Berbentuk Panjang

Sebagai langkah signifikan bagi komunitas sumber terbuka, Meituan telah merilis generator video AI canggih, LongCat-Video, dengan izin lisensi MIT. Dibangun pada arsitektur Diffusion Transformer (DiT) yang kuat, model parameter 13,6B mengadaptasi teknologi transformator yang merevolusi model bahasa untuk tugas kompleks pembuatan video. Arsitekturnya menawarkan kerangka kerja yang serbaguna dan terpadu bagi para pembuat konten.

Desain inti Meituan LongCat mampu menangani tugas kelanjutan teks-ke-video, gambar-ke-video, dan video dalam satu sistem. Bagi pengguna, ini berarti proses kreatif yang lebih lancar dan terintegrasi.

Kreator dapat memulai dengan perintah teks untuk membuat adegan awal, menggunakan gambar referensi untuk menganimasikan karakter tertentu ke dalam adegan tersebut, lalu menggunakan kelanjutan video untuk memperluas aksi, semuanya tanpa beralih di antara alat yang berbeda.

🤯 Lisensi MIT + Koherensi 5 Menit + Peningkatan Kecepatan 10x. Meituan baru saja melakukan open-source LongCat-Video (13,6 miliar), model dasar video SOTA yang merupakan pesaing serius dalam perlombaan Model Dunia.

🎥 Terobosan: Secara asli menghasilkan video berkelanjutan hingga 5 menit dengan pra-pelatihan di… pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 27 Oktober 2025

Dengan membedakan tugas berdasarkan jumlah frame awal yang disediakan, pendekatan terintegrasi model memungkinkan transisi yang mulus antara mode materi iklan yang berbeda, sehingga menyederhanakan alur kerja produksi.

Memecahkan Masalah Daya Tahan: Video Berdurasi Menit Tanpa Degradasi

Sementara sistem eksklusif seperti Sora 2 OpenAI baru-baru ini mendominasi berita utama, pendekatan Meituan berfokus pada penyelesaian salah satu tantangan paling berat dalam video AI: durasi.

Banyak model mengalami penurunan kualitas dengan cepat, sehingga koherensi temporal hilang dan artefak visual terakumulasi hanya dalam beberapa detik. Fitur menonjol LongCat-Video adalah kemampuannya menghasilkan video stabil berdurasi beberapa menit dengan resolusi 720p yang mulus dan 30 frame per detik.

Pembuatnya mengaitkan terobosan ini dengan pra-pelatihan model khususnya pada tugas kelanjutan video, yang mengajarkannya untuk menjaga konsistensi dari waktu ke waktu. Menurut tim, “LongCat-Video sudah dilatih sebelumnya untuk tugas-tugas Video-Continuation, sehingga memungkinkannya menghasilkan video berdurasi beberapa menit tanpa penyimpangan warna atau penurunan kualitas.”

Dengan berfokus pada kelanjutan, model ini secara langsung memerangi penyimpangan warna dan degradasi gambar yang sering mengganggu video AI, memastikan bahwa narasi yang lebih panjang tetap koheren secara visual dari awal hingga akhir.

Untuk Untuk menjadikan proses komputasi intensif ini praktis, model ini menggunakan beberapa teknik yang berfokus pada efisiensi. Seperti yang dijelaskan Meituan, “LongCat-Video menghasilkan video 720p, 30fps dalam hitungan menit dengan menggunakan strategi pembuatan kasar hingga halus di sepanjang sumbu temporal dan spasial.”

Strategi kasar hingga halus (C2F) terdiri dari proses dua tahap: strategi ini pertama-tama menghasilkan “draf” video dengan resolusi lebih rendah, lalu dengan cerdas menyempurnakan dan meningkatkannya, menambahkan detail dan tekstur.

Ini sering kali lebih cepat dan memberikan hasil yang lebih baik daripada mencoba membuat video beresolusi tinggi penuh sekaligus. Selain itu, LongCat-Video menggunakan Block Sparse Attention, sebuah pengoptimalan cerdas yang memungkinkan model memfokuskan kekuatan komputasinya pada bagian paling relevan dari urutan video alih-alih memproses setiap hubungan piksel, sehingga secara signifikan mengurangi beban pemrosesan.

Pesaing Open-Source dalam Perlombaan Video AI

Rilis Meituan pada tanggal 27 Oktober menjadikan LongCat-Video sebagai pesaing open source yang tangguh dan tangguh di bidang yang didominasi oleh sistem tertutup.

Kemampuannya menempatkannya dalam persaingan langsung dengan model Veo 3.1 yang baru saja diperbarui dari Google dan Sora 2 dari OpenAI. Peluncuran Sora 2, meskipun secara teknis mengesankan, juga memicu perdebatan luas mengenai deepfake dan keamanan AI, sehingga membuka peluang bagi alternatif yang lebih transparan dan berfokus pada pengembang.

Metrik kinerja dari laporan teknis model menunjukkan bahwa model tersebut mampu bertahan. Pada benchmark VBench 2.0, LongCat-Video mencapai skor total 62,11%. Proyek ini melampaui semua pesaing yang diuji dalam dimensi “Akal Sehat”dengan skor 70,94%, yang menunjukkan pemahaman yang kuat tentang realisme fisik dan gerakan yang masuk akal.

Perusahaan membingkai proyek ini sebagai langkah strategis menuju tujuan yang lebih ambisius. “Pembuatan video adalah jalur penting menuju model dunia, dengan inferensi video panjang yang efisien sebagai kemampuan utamanya,” kata Tim Meituan LongCat.

Visi Meituan mengarah pada pengembangan “model dunia”—sistem AI dengan pemahaman dasar fisika, sebab-akibat, dan permanensi objek yang dapat menyimulasikan realitas. LongCat-Video mewakili langkah penting dalam mengekspresikan pengetahuan simulasi tersebut secara visual.

Selain kemampuannya yang kuat, ukuran model yang besar merupakan hambatan perangkat keras yang signifikan bagi peneliti individu dan penghobi. Masih banyak pertanyaan yang masih tersisa mengenai asal usul kumpulan data video yang sangat besar yang digunakan untuk pelatihan, yang merupakan topik sensitif di industri AI generatif.

Langkah Meituan kemungkinan akan memacu inovasi lebih lanjut dalam komunitas sumber terbuka dan meningkatkan tekanan pada pengembang berpemilik untuk menawarkan solusi yang lebih mudah diakses.

Saat pengembang mulai mengintegrasikan LongCat-Video ke dalam alur kerja mereka, hal ini berdampak nyata pada industri kreatif dan industri kreatif. kemampuan untuk mendorong batasan penyampaian cerita berbasis AI akan menjadi lebih jelas.

Categories: IT Info