Kinas teknikföretag Meituan har släppt en ny AI-videomodell, LongCat-Video, på måndag, vilket gör den fritt tillgänglig som öppen källkod.
Dess kraftfulla 13,6 miljarder parametermodell genererar högkvalitativa, minuter långa videor från text eller bilder, ett betydande steg för öppen källkodsteknologi. Släppt på plattformar som GitHub, utmanar LongCat-Video direkt proprietära modeller från OpenAI och Google.
Meituan positionerar releasen som ett nyckelsteg mot att utveckla mer avancerade”världsmodeller”genom att lösa vanliga problem som kvalitetsförlust i långvarig AI-video. Meituans drag gör sofistikerade kreativa verktyg mer tillgängliga för utvecklare och forskare över hela världen.
En enhetlig arkitektur för långformatsvideo
I ett viktigt steg för öppen källkodsgemenskapen har Meituan släppt sin avancerade AI-videogenerator, LongCat-Video, under en tillåtande MIT-licens. Byggd på en kraftfull Diffusion Transformer (DiT)-arkitektur, anpassar 13.6B-parametermodellen transformatortekniken som revolutionerade språkmodeller för den komplexa uppgiften att generera video. Dess arkitektur erbjuder ett mångsidigt, enhetligt ramverk för kreatörer.
Meituan LongCats kärndesign hanterar text-till-video, bild-till-video och videofortsättningsuppgifter inom ett enda system. För användarna innebär detta en mer flytande och integrerad kreativ process.
En skapare kan börja med en textuppmaning för att generera en inledande scen, använda en referensbild för att animera en specifik karaktär i den scenen och sedan använda videofortsättning för att utöka handlingen, allt utan att byta mellan olika verktyg.
🤯 MIT License + 5 Coher Spee + 5.0 Meituan har just Open-source LongCat-Video (13.6B), en SOTA-videobasmodell som är en seriös utmanare för World Model-loppet.
🎥 Genombrottet: Genererar naturligt upp till 5-minuters kontinuerliga videor genom förträning på… pic.twitter.com/WuYPA9kuFV
— ModelScope (@ModelScope2022) 27 oktober 2025
Genom att särskilja uppgifter baserat på antalet initiala bildrutor som tillhandahålls, möjliggör modellens integrerade tillvägagångssätt en sömlös övergång mellan olika kreativa lägen, vilket effektiviserar produktionsarbetsflödet.
Lösa problem med uthållighet/uthållighet i minuter/3 med uthållighet/uthållighet i videon:/3.
Medan proprietära system som OpenAIs Sora 2 har nyligen dominerat rubrikerna, Meituans tillvägagångssätt fokuserar på att lösa en av AI-videos mest ihållande utmaningar: varaktighet.
Många modeller lider av en snabb kvalitetsförsämring, där tidsmässig koherens går förlorad och visuella artefakter ackumuleras på bara några sekunder. LongCat-Videos utmärkande funktion är dess förmåga att generera stabila, minuterlånga videor med en jämn 720p-upplösning och 30 bilder per sekund.
Dess skapare tillskriver detta genombrott att förträna modellen specifikt på videofortsättningsuppgifter, vilket lär den att bibehålla konsistens över tid. Enligt teamet är”LongCat-Video förutbildad för videofortsättningsuppgifter, vilket gör det möjligt för den att producera några minuter långa videor utan färgavdrift eller kvalitetsförsämring.”
Genom att fokusera på fortsättning bekämpar modellen direkt den färgavdrift och bildförsämring som ofta plågar AI-videor, vilket säkerställer att det blir kvar längre från visuellt till slut
.
För att göra detta beräkningsintensiv process praktisk, modellen använder flera effektivitetsfokuserade tekniker. Som Meituan förklarar,”LongCat-Video genererar 720p, 30 fps videor inom några minuter genom att använda en grov-till-fin-genereringsstrategi längs både den tidsmässiga och rumsliga axeln.”
Dess grov-till-fin-strategi (C2F) är en tvåstegsprocess: den genererar först en smartare upplösning av videon och lägger sedan upp den med lägre upplösning och skaar sedan upp videon. detalj och textur.
Detta är ofta snabbare och ger bättre resultat än att försöka skapa en högupplöst video på en gång. Dessutom använder LongCat-Video Block Sparse Attention, en smart optimering som gör att modellen kan fokusera sin beräkningskraft på de mest relevanta delarna av videosekvensen istället för att bearbeta varje pixelförhållande, vilket avsevärt minskar bearbetningsbelastningen.
En öppen källkodsutmanare i AI Video Race
Meituan-C Videos släpps den oktober 27. omedelbar och formidabel utmanare med öppen källkod inom ett område som domineras av avstängda system.
Dess kapacitet placerar den i direkt konkurrens med Googles nyligen uppdaterade Veo 3.1-modell och OpenAI:s Sora 2. Sora 2:s lansering, även om den var tekniskt imponerande, väckte också en bred debatt om djupförfalskningar och öppning för en mer transparent AI-säkerhet, vilket skapade ett alternativ för en mer transparent AI.
Prestandastatistik från modellens tekniska rapport visar att den håller sig. På VBench 2.0-riktmärket uppnådde LongCat-Video en totalpoäng på 62,11 %. Det överträffade anmärkningsvärt alla testade konkurrenter i dimensionen”Sunt förnuft”med en poäng på 70,94 %, vilket tyder på ett starkt grepp om fysisk realism och rimlig rörelse.
Företaget formulerar projektet som ett strategiskt steg mot mer ambitiösa mål.”Videogenerering är en kritisk väg mot världsmodeller, med effektiv lång videoinferens som en nyckelfunktion”, noterade Meituan LongCat-teamet.
Meituans vision pekar mot utvecklingen av”världsmodeller”-AI-system med en grundläggande förståelse för fysik, orsak och verkan och objektpermanens som kan simulera verkligheten. LongCat-Video representerar ett kritiskt steg för att uttrycka den simulerade kunskapen visuellt.
Förutom dess kraftfulla kapacitet är modellens stora storlek en betydande hårdvarubarriär för enskilda forskare och hobbyister. Kvarstående frågor kvarstår också om ursprunget för den enorma videodatauppsättningen som används för utbildning, ett känsligt ämne inom den generativa AI-branschen.
Meituans drag kommer sannolikt att stimulera ytterligare innovation i open source-gemenskapen och öka trycket på egna utvecklare att erbjuda mer tillgängliga lösningar.
När utvecklare börjar integrera LongCat-industrins verkliga workflows och kreativa effekter på video i sin verkliga industrivärld. dess förmåga att tänja på gränserna för AI-drivet storytelling kommer att bli tydligare.