Compania chineză de tehnologie Meituan a lansat luni un nou model video AI, LongCat-Video, făcându-l disponibil gratuit ca software open-source.

Modelul său puternic de 13,6 miliarde de parametri generează videoclipuri de înaltă calitate, de câteva minute din text sau imagini, un salt semnificativ pentru tehnologia open-source. Lansat pe platforme precum GitHub, LongCat-Video provoacă în mod direct modelele proprietare de la OpenAI și Google.

Meituan poziționează lansarea ca un pas cheie către dezvoltarea „modelelor mondiale” mai avansate, prin rezolvarea problemelor comune precum pierderea calității în videoclipurile AI de lungă durată. Mișcarea lui Meituan face instrumentele creative sofisticate mai accesibile dezvoltatorilor și cercetătorilor din întreaga lume.

O arhitectură unificată pentru videoclipuri de formă lungă

Într-o mișcare semnificativă pentru comunitatea open-source, Meituan a lansat generatorul de video AI avansat, LongCat-Video, sub un licență permisivă MIT. Construit pe o arhitectură puternică Diffusion Transformer (DiT), modelul cu parametri 13.6B adaptează tehnologia transformatorului care a revoluționat modelele de limbaj pentru sarcina complexă de generare video. Arhitectura sa oferă un cadru versatil și unificat pentru creatori.

Designul de bază al lui Meituan LongCat gestionează cu capacitate sarcinile text în video, imagine în video și continuarea video într-un singur sistem. Pentru utilizatori, acest lucru înseamnă un proces creativ mai fluid și mai integrat.

Un creator poate începe cu un mesaj text pentru a genera o scenă inițială, poate folosi o imagine de referință pentru a anima un anumit personaj în acea scenă și apoi poate folosi continuarea video pentru a extinde acțiunea, totul fără a comuta între diferite instrumente.

🤯 MIT License + 5-Minute Coherence Boost10x. Meituan tocmai LongCat-Video (13.6B) cu sursă deschisă, un model de bază video SOTA care este un candidat serios pentru cursa World Model.

🎥 The Breakthrough: generează în mod nativ videoclipuri continue de până la 5 minute prin pre-antrenament pe… pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 27 octombrie 2025

Prin diferențierea sarcinilor în funcție de numărul de cadre inițiale furnizate, abordarea integrată a modelului permite o tranziție fără întreruperi între diferite moduri creative, simplificând fluxul de lucru de producție.

Rezolvarea problemei de anduranță: video cu minut de degradare

În timp ce sistemele proprietare precum Sora 2 de la OpenAI au dominat recent titlurile, abordarea lui Meituan se concentrează pe rezolvarea uneia dintre cele mai persistente provocări ale videoclipurilor AI: durata.

Multe modele suferă de o scădere rapidă a calității, în care coerența temporală se pierde și artefactele vizuale se acumulează în doar câteva secunde. Caracteristica remarcabilă a LongCat-Video este capacitatea sa de a genera videoclipuri stabile, de câteva minute, la o rezoluție fluidă de 720p și 30 de cadre pe secundă.

Creatorii săi atribuie această descoperire pre-antrenării modelului în mod specific pentru sarcinile de continuare video, ceea ce îl învață să mențină consistența în timp. Potrivit echipei, „LongCat-Video este pregătit în mod nativ pentru sarcinile de continuare video, permițându-i să producă videoclipuri de câteva minute fără deplasare a culorii sau degradare a calității.”

Concentrându-se pe continuare, modelul combate direct deplasarea culorilor și degradarea imaginii care afectează adesea videoclipurile AI, asigurând că narațiunile mai lungi rămân de la început până la sfârșit.

proces practic intensiv din punct de vedere computațional, modelul folosește mai multe tehnici axate pe eficiență. După cum explică Meituan, „LongCat-Video generează videoclipuri de 720p, 30fps în câteva minute, utilizând o strategie de generare grosieră-fină de-a lungul ambelor axe temporale și spațiale.”

Strategia sa grosieră-fină (C2F) este un proces în două etape: mai întâi generează o rezoluție mai mică „și apoi detaliată” a video-ului, iar apoi detaliat și detaliat. textura.

Acest lucru este adesea mai rapid și dă rezultate mai bune decât încercarea de a genera un videoclip complet de înaltă rezoluție dintr-o singură mișcare. În plus, LongCat-Video folosește Block Sparse Attention, o optimizare inteligentă care permite modelului să-și concentreze puterea de calcul pe cele mai relevante părți ale secvenței video în loc să proceseze fiecare relație de pixeli, reducând semnificativ sarcina de procesare.

Un concurent Open-Source în cursa AI Video Race

Meituan’7 va fi lansat imediat în octombrie. și un concurent formidabil open-source într-un domeniu dominat de sisteme închise.

Capacitățile sale îl plasează în concurență directă cu modelul recent actualizat Veo 3.1 de la Google și Sora 2 de la OpenAI. Lansarea Sora 2, deși impresionantă din punct de vedere tehnic, a stârnit, de asemenea, o dezbatere pe scară largă asupra deepfake-urilor și a siguranței AI, creând o alternativă mai transparentă, de dezvoltare a AI pentru o concentrare mai transparentă.

Valori de performanță de la raportul tehnic al modelului arată că se păstrează. La benchmark-ul VBench 2.0, LongCat-Video a obținut un scor total de 62,11%. A depășit în mod deosebit toți concurenții testați în dimensiunea „Bun simț” cu un scor de 70,94%, sugerând o înțelegere puternică a realismului fizic și a mișcării plauzibile.

Compania încadrează proiectul ca o mișcare strategică către obiective mai ambițioase. „Generarea video este o cale critică către modelele lumii, cu inferență video lungă eficientă ca o capacitate cheie”, a remarcat echipa Meituan LongCat.

Viziunea lui Meituan îndreaptă spre dezvoltarea „modelelor lumii” – sisteme AI cu o înțelegere fundamentală a fizicii, cauzei și efectului și permanenței obiectelor care pot simula realitatea. LongCat-Video reprezintă un pas critic în exprimarea vizuală a cunoștințelor simulate.

Pe lângă capabilitățile sale puternice, dimensiunea mare a modelului reprezintă o barieră hardware semnificativă pentru cercetătorii și pasionații individuali. Întrebări persistente rămân, de asemenea, cu privire la proveniența vastului set de date video folosit pentru instruire, un subiect sensibil în industria AI generativă.

Mișcarea lui Meituan va stimula probabil mai multe inovații în comunitatea open-source și va crește presiunea asupra dezvoltatorilor proprietari pentru a oferi soluții mai accesibile.

Pe măsură ce dezvoltatorii încep să integreze LongCat-Video în fluxurile lor de lucru și asupra capacității sale creative, asupra capacității sale reale de lucru și asupra capacității sale creative. pentru a depăși limitele povestirii bazate pe inteligență artificială va deveni mai clar.

Categories: IT Info