Kompania kineze e teknologjisë Meituan ka lëshuar një model të ri videoje me AI, LongCat-Video, të hënën, duke e bërë atë të disponueshëm lirisht si softuer me burim të hapur.
Modeli i tij i fuqishëm prej 13.6 miliardë parametrash gjeneron video me cilësi të lartë, disa minuta nga teksti ose imazhet, një hap i rëndësishëm për teknologjinë me burim të hapur. I lëshuar në platforma si GitHub, LongCat-Video sfidon drejtpërdrejt modelet e pronarit nga OpenAI dhe Google.
Meituan e pozicionon lëshimin si një hap kyç drejt zhvillimit të”modeleve botërore”më të avancuara duke zgjidhur çështje të zakonshme si humbja e cilësisë në video me AI afatgjatë. Lëvizja e Meituan i bën mjetet e sofistikuara krijuese më të aksesueshme për zhvilluesit dhe studiuesit në mbarë botën.
Një arkitekturë e unifikuar për video në formë të gjatë
Në një lëvizje të rëndësishme për komunitetin me burim të hapur, Meituan ka lëshuar gjeneratorin e përparuar të videove me AI, Long a licencë lejuese MIT. I ndërtuar mbi një arkitekturë të fuqishme Transformer Difuzioni (DiT), modeli i parametrave 13.6B përshtat teknologjinë e transformatorit që revolucionarizoi modelet e gjuhës për detyrën komplekse të gjenerimit të videove. Arkitektura e tij ofron një kornizë të gjithanshme, të unifikuar për krijuesit.
Dizajni kryesor i Meituan LongCat trajton në mënyrë të aftë detyrat e vazhdimit tekst-në-video, imazh-në-video dhe video brenda një sistemi të vetëm. Për përdoruesit, kjo do të thotë një proces krijues më i rrjedhshëm dhe i integruar.
Një krijues mund të fillojë me një kërkesë teksti për të gjeneruar një skenë fillestare, të përdorë një imazh referimi për të animuar një personazh specifik në atë skenë dhe më pas të përdorë vazhdimin e videos për të zgjatur veprimin, të gjitha pa kaluar midis mjeteve të ndryshme.
🤯 5-MIT Boheritx0 + Meituan vetëm LongCat-Video me burim të hapur (13.6B), një model bazë video SOTA që është një konkurrent serioz për garën e Modelit Botëror.
target=”_blank”>pic.twitter.com/WuYPA9kuFV
— ModelScope (@ModelScope2022) 27 tetor 2025
Duke dalluar detyrat bazuar në numrin e kornizave fillestare të ofruara, qasja e integruar e modelit lejon një tranzicion të pandërprerë midis mënyrave të ndryshme krijuese, duke thjeshtuar rrjedhën e punës së prodhimit.
Zgjidhja e problemit me video-out-induanceL Without Minutes-Long Living the Endurance. Degradimi
Ndërsa është në pronësi Sistemet si Sora 2 i OpenAI kanë dominuar kohët e fundit titujt kryesorë, qasja e Meituan fokusohet në zgjidhjen e një prej sfidave më të vazhdueshme të videos së AI: kohëzgjatjen.
Shumë modele vuajnë nga një rënie e shpejtë e cilësisë, ku koherenca kohore humbet dhe artefaktet vizuale grumbullohen në vetëm disa sekonda. Karakteristika e spikatur e LongCat-Video është aftësia e tij për të gjeneruar video të qëndrueshme, disa minuta me një rezolucion të qetë 720p dhe 30 korniza për sekondë.
Krijuesit e tij ia atribuojnë këtë zbulim trajnimit paraprak të modelit në mënyrë specifike për detyrat e vazhdimit të videos, gjë që e mëson atë të ruajë qëndrueshmërinë me kalimin e kohës. Sipas ekipit,”LongCat-Video është i trajnuar më parë për detyrat e vazhdimësisë së videove, duke i mundësuar atij të prodhojë video disa minuta pa ndryshim ngjyrash ose degradim të cilësisë.”
Duke u fokusuar në vazhdimësi, modeli lufton drejtpërdrejt rrëshqitjen e ngjyrave dhe degradimin e imazhit, të cilat shpesh i dëmtojnë ato video nga AI deri tek ato më të gjata. përfundoni.
Për ta bërë këtë Praktik i procesit intensiv llogaritar, modeli përdor disa teknika të fokusuara në efikasitet. Siç shpjegon Meituan,”LongCat-Video gjeneron video 720p, 30 fps brenda disa minutash duke përdorur një strategji gjenerimi të përafërt në të imët përgjatë boshteve kohore dhe hapësinore.”
Strategjia e saj e trashë në të imët (C2F) është një proces me dy faza: ajo fillimisht gjeneron një video më të ulët dhe më pas. e përpunon dhe e përmirëson atë, duke shtuar detaje dhe teksturë.
Kjo është shpesh më e shpejtë dhe jep rezultate më të mira sesa përpjekja për të gjeneruar një video të plotë me rezolucion të lartë me një lëvizje. Për më tepër, LongCat-Video përdor Block Sparse Attention, një optimizim inteligjent që i lejon modelit të përqendrojë fuqinë e tij llogaritëse në pjesët më të rëndësishme të sekuencës së videos në vend që të përpunojë çdo marrëdhënie pikselësh, duke reduktuar ndjeshëm ngarkesën e përpunimit.
Një konkurrues me burim të hapur në garën e AIMeh3’s <7 tetor> LongCat-Video një konkurrent i menjëhershëm dhe i frikshëm me burim të hapur në një fushë të dominuar nga sisteme të mbyllura.
Aftësitë e tij e vendosin atë në konkurrencë të drejtpërdrejtë me modelin Veo 3.1 të përditësuar së fundmi të Google dhe Sora 2 të OpenAI. Lançimi i Sora 2, ndonëse teknikisht mbresëlënës, shkaktoi gjithashtu një debat të gjerë të AI-së për hapje më transparente dhe më transparente, duke krijuar një hapje më transparente dhe më transparente për inteligjencën artificiale. alternativë.
Metrikat e performancës nga raporti teknik i modelit tregon se ai është i vetën. Në standardin VBench 2.0, LongCat-Video arriti një rezultat total prej 62.11%. Ajo i tejkaloi dukshëm të gjithë konkurrentët e testuar në dimensionin”Commonsense”me një rezultat prej 70,94%, duke sugjeruar një zotërim të fortë të realizmit fizik dhe lëvizjes së besueshme.
Kompania e kuadron projektin si një lëvizje strategjike drejt qëllimeve më ambicioze.”Gjenerimi i videove është një rrugë kritike drejt modeleve botërore, me konkluzionet efikase të videove të gjata si një aftësi kyçe,”vuri në dukje Ekipi i Meituan LongCat.
Vizioni i Meituan tregon drejt zhvillimit të”modeleve botërore”-sistemet e AI me një kuptim themelor të fizikës, shkak-pasojë dhe realitetin simulues që mund të simulojnë. LongCat-Video përfaqëson një hap kritik në shprehjen vizuale të asaj njohurie të simuluar.
Përveç aftësive të tij të fuqishme, madhësia e madhe e modelit është një pengesë e rëndësishme harduerike për studiuesit dhe hobiistët individualë. Pyetje të vazhdueshme mbeten gjithashtu në lidhje me origjinën e grupit të madh të të dhënave të videove të përdorura për trajnime, një temë e ndjeshme në të gjithë industrinë gjeneruese të AI.
Lëvizja e Meituan ka të ngjarë të nxisë inovacione të mëtejshme në komunitetin me burim të hapur dhe të rrisë presionin mbi zhvilluesit e pronarit për të ofruar zgjidhje më të arritshme.
Ndërsa zhvilluesit fillojnë të integrojnë ndikimin e saj real në punën e tyre në C. industritë dhe aftësia e saj për të shtyrë kufijtë e tregimit të drejtuar nga AI do të bëhen më të qarta.