Das chinesische Technologieunternehmen Meituan hat am Montag ein neues KI-Videomodell, LongCat-Video, veröffentlicht und es als Open-Source-Software frei verfügbar gemacht.

Sein leistungsstarkes 13,6-Milliarden-Parameter-Modell generiert hochwertige, minutenlange Videos aus Text oder Bildern, ein bedeutender Sprung für Open-Source-Technologie. LongCat-Video wird auf Plattformen wie GitHub veröffentlicht und stellt proprietäre Modelle von OpenAI und Google direkt in Frage.

Meituan betrachtet die Veröffentlichung als einen wichtigen Schritt zur Entwicklung fortschrittlicherer „Weltmodelle“, indem häufig auftretende Probleme wie Qualitätsverlust bei Langzeit-KI-Videos gelöst werden. Meituans Schritt macht anspruchsvolle kreative Tools für Entwickler und Forscher weltweit zugänglicher.

Eine einheitliche Architektur für lange Videos

In einem bedeutenden Schritt für die Open-Source-Community hat Meituan seinen fortschrittlichen KI-Videogenerator LongCat-Video unter einem veröffentlicht freizügige MIT-Lizenz. Das 13.6B-Parametermodell basiert auf einer leistungsstarken Diffusion Transformer (DiT)-Architektur und adaptiert die Transformer-Technologie, die Sprachmodelle für die komplexe Aufgabe der Videogenerierung revolutioniert hat. Seine Architektur bietet ein vielseitiges, einheitliches Framework für Entwickler.

Meituan LongCats Kerndesign bewältigt problemlos Text-zu-Video-, Bild-zu-Video-und Video-Fortsetzungsaufgaben in einem einzigen System. Für Benutzer bedeutet dies einen flüssigeren und integrierteren kreativen Prozess.

Ein Ersteller könnte mit einer Textaufforderung beginnen, um eine erste Szene zu generieren, ein Referenzbild verwenden, um eine bestimmte Figur in dieser Szene zu animieren, und dann eine Videofortsetzung verwenden, um die Aktion zu erweitern, alles ohne zwischen verschiedenen Tools wechseln zu müssen.

🤯 MIT-Lizenz + 5-Minuten-Kohärenz + 10-facher Geschwindigkeitsschub. Meituan hat gerade LongCat-Video (13.6B) als Open-Source-Lösung bereitgestellt, ein SOTA-Video-Basismodell, das ein ernstzunehmender Anwärter auf den World Model-Wettbewerb ist.

🎥 Der Durchbruch: Erzeugt nativ bis zu 5-minütige, kontinuierliche Videos durch Vortraining auf… pic.twitter.com/WuYPA9kuFV

– ModelScope (@ModelScope2022) 27. Oktober 2025

Durch die Unterscheidung von Aufgaben basierend auf der Anzahl der bereitgestellten Anfangsbilder ermöglicht der integrierte Ansatz des Modells einen nahtlosen Übergang zwischen verschiedenen Kreativmodi und optimiert so den Produktionsworkflow.

Lösung des Ausdauerproblems: Minutenlanges Video ohne Beeinträchtigung

While Während proprietäre Systeme wie Sora 2 von OpenAI in letzter Zeit die Schlagzeilen beherrschten, konzentriert sich Meituans Ansatz auf die Lösung einer der hartnäckigsten Herausforderungen von KI-Videos: der Dauer.

Viele Modelle leiden unter einem schnellen Qualitätsverlust, bei dem die zeitliche Kohärenz verloren geht und sich innerhalb weniger Sekunden visuelle Artefakte ansammeln. Die herausragende Funktion von LongCat-Video ist seine Fähigkeit, stabile, minutenlange Videos mit einer flüssigen 720p-Auflösung und 30 Bildern pro Sekunde zu generieren.

Die Entwickler führen diesen Durchbruch darauf zurück, dass das Modell vorab speziell auf Videofortsetzungsaufgaben trainiert wurde, was ihm beibringt, die Konsistenz über die Zeit aufrechtzuerhalten. Laut dem Team ist „LongCat-Video nativ auf Video-Fortsetzungsaufgaben vorab trainiert, was es ihm ermöglicht, minutenlange Videos ohne Farbabweichungen oder Qualitätsverluste zu produzieren.“

Durch die Fokussierung auf die Fortsetzung bekämpft das Modell direkt die Farbabweichungen und Bildverschlechterungen, die häufig KI-Videos belasten, und stellt sicher, dass längere Erzählungen von Anfang bis Ende visuell kohärent bleiben.

Um dies zu erreichen Da der rechenintensive Prozess praktisch ist, verwendet das Modell mehrere effizienzorientierte Techniken. Wie Meituan erklärt: „LongCat-Video generiert innerhalb von Minuten 720p-Videos mit 30 Bildern pro Sekunde, indem es eine Grob-zu-Fein-Generierungsstrategie sowohl entlang der zeitlichen als auch der räumlichen Achse anwendet.“

Die Grob-zu-Fein-Strategie (C2F) ist ein zweistufiger Prozess: Zunächst wird ein „Entwurf“ des Videos mit niedrigerer Auflösung erstellt und dieser dann intelligent verfeinert und hochskaliert, wobei Details und Textur hinzugefügt werden.

Dies ist oft schneller und liefert bessere Ergebnisse als der Versuch, ein vollständiges hochauflösendes Video auf einmal zu erstellen. Darüber hinaus verwendet LongCat-Video Block Sparse Attention, eine intelligente Optimierung, die es dem Modell ermöglicht, seine Rechenleistung auf die relevantesten Teile der Videosequenz zu konzentrieren, anstatt jede Pixelbeziehung zu verarbeiten, was die Verarbeitungslast erheblich reduziert.

Ein Open-Source-Anwärter im KI-Video-Rennen

Meituans Veröffentlichung am 27. Oktober macht LongCat-Video zu einem sofortigen und ein beeindruckender Open-Source-Anwärter in einem Bereich, der von geschlossenen Systemen dominiert wird.

Seine Fähigkeiten stellen es in direkte Konkurrenz zu Googles kürzlich aktualisiertem Veo 3.1-Modell und OpenAIs Sora 2. Der Start von Sora 2 war zwar technisch beeindruckend, löste aber auch eine breite Debatte über Deepfakes und KI-Sicherheit aus und eröffnete den Weg für eine transparentere, entwicklerorientierte Alternative.

Leistungsmetriken aus dem Der technische Bericht des Modells zeigt, dass es sich behaupten kann. Beim VBench 2.0 Benchmark erreichte LongCat-Video einen Gesamtscore von 62,11 %. Mit einer Punktzahl von 70,94 % übertraf es deutlich alle getesteten Mitbewerber in der Dimension „Gesunder Menschenverstand“, was auf ein starkes Gespür für physischen Realismus und plausible Bewegungen schließen lässt.

Das Unternehmen betrachtet das Projekt als einen strategischen Schritt hin zu ehrgeizigeren Zielen. „Die Videogenerierung ist ein entscheidender Weg zu Weltmodellen, wobei eine effiziente lange Videoinferenz eine Schlüsselfunktion ist“, stellte das Meituan LongCat-Team fest.

Meituans Vision zielt auf die Entwicklung von „Weltmodellen“ ab – KI-Systeme mit einem grundlegenden Verständnis von Physik, Ursache und Wirkung und Objektpermanenz, die die Realität simulieren können. LongCat-Video stellt einen entscheidenden Schritt bei der visuellen Darstellung dieses simulierten Wissens dar.

Neben seinen leistungsstarken Fähigkeiten stellt die große Größe des Modells eine erhebliche Hardware-Hürde für einzelne Forscher und Hobbyisten dar. Es bleiben auch weiterhin Fragen zur Herkunft des riesigen Videodatensatzes offen, der für Schulungen verwendet wird, ein sensibles Thema in der gesamten Branche der generativen KI.

Meituans Schritt wird wahrscheinlich weitere Innovationen in der Open-Source-Community anregen und den Druck auf proprietäre Entwickler erhöhen, zugänglichere Lösungen anzubieten.

Wenn Entwickler beginnen, LongCat-Video in ihre Arbeitsabläufe zu integrieren, werden seine realen Auswirkungen auf die Kreativbranche und ihre Unternehmen immer wichtiger Die Fähigkeit, die Grenzen des KI-gesteuerten Geschichtenerzählens zu verschieben, wird deutlicher.

Categories: IT Info