Kiinalainen teknologiayritys Meituan on julkaissut uuden tekoälyvideomallin, LongCat-Videon, maanantaina, mikä tekee siitä vapaasti saatavilla avoimen lähdekoodin ohjelmistona.

Sen tehokas 13,6 miljardin parametrimalli tuottaa laadukkaita, minuuttisia videoita tekstistä tai kuvista, mikä on merkittävä harppaus avoimen lähdekoodin teknologiaan. GitHubin kaltaisille alustoille julkaistu LongCat-Video haastaa suoraan OpenAI:n ja Googlen patentoidut mallit.

Meituan pitää julkaisua tärkeänä askeleena kohti kehittyneempien”maailmanmallien”kehittämistä ratkaisemalla yleisiä ongelmia, kuten laadun heikkenemistä pitkäkestoisessa tekoälyvideossa. Meituanin siirto tekee kehittyneistä luovista työkaluista helpommin kehittäjien ja tutkijoiden saatavilla kaikkialla maailmassa.

Yhdistetty arkkitehtuuri pitkälle videolle

Meituan on julkistanut kehittyneen tekoälyvideogeneraattorinsa, LongCat-Videon, avoimen lähdekoodin yhteisölle merkittävänä askeleena. salliva MIT-lisenssi. Tehokkaan Diffusion Transformer (DiT)-arkkitehtuuriin rakennettu 13.6B-parametrimalli mukauttaa muuntajateknologiaa, joka mullisti kielimallit videon luomisen monimutkaiseen tehtävään. Sen arkkitehtuuri tarjoaa monipuolisen, yhtenäisen kehyksen sisällöntuottajille.

Meituan LongCatin ydinsuunnittelu pystyy käsittelemään tekstistä videoon, kuvasta videoon ja videon jatkotehtäviä yhdessä järjestelmässä. Käyttäjille tämä tarkoittaa sujuvampaa ja integroidumpaa luomisprosessia.

Luonnontekijä voi aloittaa tekstikehotteen avulla luodakseen ensimmäisen kohtauksen, käyttää viitekuvaa tietyn hahmon animoimiseen kyseiseen kohtaukseen ja jatkaa sitten toimintoa videon jatko-osien avulla ilman eri työkalujen välillä vaihtamista.

🤯 MIT License Co.5-Ost.5. Meituan vain avoimen lähdekoodin LongCat-Video (13.6B), SOTA-videoperusmalli, joka on vakava kilpailija World Model-kilpailuun.

🎥 Läpimurto: Luo natiivisti jopa 5 minuutin mittaisia ​​jatkuvia videoita harjoittelemalla etukäteen… pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 27. lokakuuta 2025

Mallin integroitu lähestymistapa, joka erottaa tehtävät tarjottujen alkuperäisten kehysten lukumäärän perusteella, mahdollistaa saumattoman siirtymisen eri luovien tilojen välillä ja virtaviivaistaa tuotannon työnkulkua.

Kestävyysongelman ratkaiseminen: Video: Degradation3 patentoidut järjestelmät, kuten OpenAI:n Sora 2, ovat viime aikoina dominoineet otsikoita, ja Meituanin lähestymistapa keskittyy ratkaisemaan yksi tekoälyvideon pysyvimmistä haasteista: kesto.

Monet mallit kärsivät nopeasta laadun heikkenemisestä, jolloin ajallinen koherenssi katoaa ja visuaalisia artefakteja kertyy muutamassa sekunnissa. LongCat-Videon erottuva ominaisuus on sen kyky luoda vakaita, minuuttisia videoita tasaisella 720p-resoluutiolla ja 30 ruudulla sekunnissa.

Sen tekijät pitävät tätä läpimurtoa siksi, että malli on esikoulutettu erityisesti videon jatkotehtäviin, mikä opettaa sen säilyttämään johdonmukaisuuden ajan mittaan. Tiimin mukaan”LongCat-Video on natiivisti esikoulutettu Video-Continuation-tehtäviin, joten se voi tuottaa minuuttien pituisia videoita ilman värien ajautumista tai laadun heikkenemistä.”

Keskustelemalla jatkoon malli taistelee suoraan värien ajautumista ja kuvan huononemista vastaan, jotka usein vaivaavat tekoälyvideoita, varmistaen, että visuaaliset videot jatkuvat pidempään alusta loppuun.

Tämän tekeminen Laskennallisesti intensiivinen prosessi käytännössä, mallissa käytetään useita tehokkuuteen keskittyviä tekniikoita. Kuten Meituan selittää,”LongCat-Video luo 720p, 30 fps videoita minuuteissa käyttämällä karkeasta hienoon sukupolvistrategiaa sekä aika-että spatiaalisella akselilla.”

Sen karkeasta hienoon (C2F)-strategia on kaksivaiheinen ja sitten kehitetty älykäs videoprosessi: se luo ensin tarkkuuden ja ratkaisun. ja skaalaa sitä lisäämällä yksityiskohtia ja tekstuuri.

Tämä on usein nopeampaa ja tuottaa parempia tuloksia kuin yrittää luoda täyden korkearesoluutioisen videon kerralla. Lisäksi LongCat-Video käyttää Block Sparse Attention-toimintoa, älykästä optimointia, jonka avulla malli voi keskittää laskentatehonsa videosekvenssin tärkeimpiin osiin sen sijaan, että se käsitteleisi jokaista pikselisuhdetta, mikä vähentää merkittävästi käsittelykuormitusta.

Avoimen lähdekoodin kilpailija AI Video Race-kilpailussa

Long-Meituan’V julkaisee Longat-2 October-Videon. välitön ja valtava avoimen lähdekoodin kilpailija alalla, jota hallitsevat suljetut järjestelmät.

Sen ominaisuudet kilpailevat suoraan Googlen äskettäin päivitetyn Veo 3.1-mallin ja OpenAI:n Sora 2:n kanssa. Sora 2:n julkaisu, vaikka se oli teknisesti vaikuttava, herätti myös laajaa keskustelua käytetyistä vaihtoehdoista läpinäkyvistä väärennöksistä ja tekoälyn turvallisuudesta, mikä loi avauksen

-foc>

Tehokkuustiedot kohteesta mallin tekninen raportti osoittaa, että malli pitää paikkansa. VBench 2.0-vertailussa LongCat-Video saavutti kokonaispistemäärän 62,11 %. Se ylitti huomattavasti kaikki testatut kilpailijat”Commonsense”-ulottuvuuden pistemäärällä 70,94 %, mikä viittaa vahvaan fyysisen realismin ja uskottavan liikkeen ymmärtämiseen.

Yhtiö pitää projektia strategisena askeleena kohti kunnianhimoisempia tavoitteita.”Videon luominen on kriittinen polku kohti maailmanmalleja, ja tehokkaan pitkän videon päättelyn avainominaisuus”, Meituan LongCat-tiimi huomautti.

Meituanin visio viittaa”maailmanmallien”kehittämiseen – tekoälyjärjestelmiin, joissa on perustavanlaatuinen ymmärrys fysiikasta, syy-seuraus-ja objektin pysyvyydestä, jotka voivat simuloida todellisuutta. LongCat-Video on kriittinen askel simuloidun tiedon ilmaisemisessa visuaalisesti.

Tehokkaiden ominaisuuksiensa lisäksi mallin suuri koko on merkittävä laitteistoeste yksittäisille tutkijoille ja harrastajille. Pysyviä kysymyksiä on myös koulutukseen käytetyn valtavan videotietojoukon alkuperästä, joka on herkkä aihe koko generatiivisen tekoälyteollisuuden alalla.

Meituanin siirto todennäköisesti vauhdittaa uusia innovaatioita avoimen lähdekoodin yhteisössä ja lisää paineita omaan kehittäjiin tarjota helpommin saavutettavia ratkaisuja.

Kun kehittäjät alkavat integroida sen todellista vaikutusta LongCat-V:iinsä, luovat työnsä ja sen kyky AI-vetoisen tarinankerronta selkenee.

Categories: IT Info