Kiinalainen teknologiayritys Meituan on julkaissut uuden tekoälyvideomallin, LongCat-Videon, maanantaina, mikä tekee siitä vapaasti saatavilla avoimen lähdekoodin ohjelmistona.
Sen tehokas 13,6 miljardin parametrimalli tuottaa laadukkaita, minuuttisia videoita tekstistä tai kuvista, mikä on merkittävä harppaus avoimen lähdekoodin teknologiaan. GitHubin kaltaisille alustoille julkaistu LongCat-Video haastaa suoraan OpenAI:n ja Googlen patentoidut mallit.
Meituan pitää julkaisua tärkeänä askeleena kohti kehittyneempien”maailmanmallien”kehittämistä ratkaisemalla yleisiä ongelmia, kuten laadun heikkenemistä pitkäkestoisessa tekoälyvideossa. Meituanin siirto tekee kehittyneistä luovista työkaluista helpommin kehittäjien ja tutkijoiden saatavilla kaikkialla maailmassa.
Yhdistetty arkkitehtuuri pitkälle videolle
Meituan on julkistanut kehittyneen tekoälyvideogeneraattorinsa, LongCat-Videon, avoimen lähdekoodin yhteisölle merkittävänä askeleena. salliva MIT-lisenssi. Tehokkaan Diffusion Transformer (DiT)-arkkitehtuuriin rakennettu 13.6B-parametrimalli mukauttaa muuntajateknologiaa, joka mullisti kielimallit videon luomisen monimutkaiseen tehtävään. Sen arkkitehtuuri tarjoaa monipuolisen, yhtenäisen kehyksen sisällöntuottajille.
Meituan LongCatin ydinsuunnittelu pystyy käsittelemään tekstistä videoon, kuvasta videoon ja videon jatkotehtäviä yhdessä järjestelmässä. Käyttäjille tämä tarkoittaa sujuvampaa ja integroidumpaa luomisprosessia.
Luonnontekijä voi aloittaa tekstikehotteen avulla luodakseen ensimmäisen kohtauksen, käyttää viitekuvaa tietyn hahmon animoimiseen kyseiseen kohtaukseen ja jatkaa sitten toimintoa videon jatko-osien avulla ilman eri työkalujen välillä vaihtamista.
🤯 MIT License Co.5-Ost.5. Meituan vain avoimen lähdekoodin LongCat-Video (13.6B), SOTA-videoperusmalli, joka on vakava kilpailija World Model-kilpailuun.
🎥 Läpimurto: Luo natiivisti jopa 5 minuutin mittaisia jatkuvia videoita harjoittelemalla etukäteen… pic.twitter.com/WuYPA9kuFV
— ModelScope (@ModelScope2022) 27. lokakuuta 2025
Mallin integroitu lähestymistapa, joka erottaa tehtävät tarjottujen alkuperäisten kehysten lukumäärän perusteella, mahdollistaa saumattoman siirtymisen eri luovien tilojen välillä ja virtaviivaistaa tuotannon työnkulkua.