Chińska firma technologiczna Meituan wypuściła w poniedziałek nowy model wideo oparty na sztucznej inteligencji, LongCat-Video, udostępniając go bezpłatnie jako oprogramowanie typu open source.

Jego potężny model zawierający 13,6 miliarda parametrów generuje wysokiej jakości, trwające minuty filmy składające się z tekstu lub obrazów, co stanowi znaczący krok w kierunku technologii open source. Wydany na platformach takich jak GitHub, LongCat-Video bezpośrednio rzuca wyzwanie zastrzeżonym modelom OpenAI i Google.

Meituan uważa tę premierę za kluczowy krok w kierunku opracowania bardziej zaawansowanych „modeli świata” poprzez rozwiązywanie typowych problemów, takich jak utrata jakości długotrwałego wideo AI. Posunięcie Meituana sprawia, że ​​zaawansowane narzędzia kreatywne stają się bardziej dostępne dla programistów i badaczy na całym świecie.

Ujednolicona architektura dla długich filmów

W znaczącym posunięciu dla społeczności open source firma Meituan udostępniła swój zaawansowany generator wideo AI, LongCat-Video, pod nazwą liberalna licencja MIT. Zbudowany w oparciu o potężną architekturę transformatora dyfuzyjnego (DiT), model parametrów 13.6B dostosowuje technologię transformatora, która zrewolucjonizowała modele językowe na potrzeby złożonego zadania generowania wideo. Jego architektura oferuje twórcom wszechstronną, ujednoliconą platformę.

Podstawowa konstrukcja Meituan LongCat umożliwia obsługę zadań zamiany tekstu na wideo, obrazu na wideo i kontynuacji wideo w ramach jednego systemu. Dla użytkowników oznacza to bardziej płynny i zintegrowany proces twórczy.

Twórca może zacząć od podpowiedzi tekstowej, aby wygenerować scenę początkową, użyć obrazu referencyjnego, aby animować konkretną postać w tej scenie, a następnie użyć kontynuacji wideo, aby wydłużyć akcję, a wszystko to bez konieczności przełączania między różnymi narzędziami.

🤯 Licencja MIT + 5-minutowa spójność + 10-krotne zwiększenie szybkości. Meituan właśnie stworzył LongCat-Video (13.6B) o otwartym kodzie źródłowym, podstawowy model wideo SOTA, który jest poważnym pretendentem do wyścigu World Model.

🎥 Przełom: natywnie generuje do 5-minutowych, ciągłych filmów wideo poprzez wstępne szkolenie na… pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 27 października 2025 r.

Rozróżniając zadania na podstawie liczby dostarczonych klatek początkowych, zintegrowane podejście modelki pozwala na płynne przejście między różnymi trybami kreatywnymi, usprawniając przepływ pracy w produkcji.

Rozwiązanie problemu wytrzymałości: wideo trwające kilka minut bez degradacji

Podczas gdy zastrzeżone systemy, takie jak Sora 2 firmy OpenAI, ostatnio zdominowały nagłówki gazet, podejście Meituana koncentruje się na rozwiązaniu jednego z najbardziej uporczywych wyzwań związanych z wideo AI: czasu trwania.

Wiele modeli cierpi na szybki spadek jakości, w wyniku którego traci się spójność czasową, a artefakty wizualne gromadzą się w ciągu zaledwie kilku sekund. Wyróżniającą się funkcją LongCat-Video jest możliwość generowania stabilnych, minutowych filmów w płynnej rozdzielczości 720p i 30 klatkach na sekundę.

Jego twórcy przypisują ten przełom wstępnemu szkoleniu modelu, szczególnie w zakresie zadań kontynuacji wideo, co uczy go utrzymywania spójności w czasie. Zdaniem zespołu „LongCat-Video jest natywnie przygotowany do zadań związanych z kontynuacją wideo, dzięki czemu może tworzyć kilkuminutowe filmy bez utraty kolorów i pogorszenia jakości.”

Koncentrując się na kontynuacji, model bezpośrednio przeciwdziała dryfowaniu kolorów i degradacji obrazu, które często są plagą w filmach AI, zapewniając, że dłuższe narracje pozostają wizualnie spójne od początku do końca.

Aby to osiągnąć, praktyczny proces wymagający dużej mocy obliczeniowej, model wykorzystuje kilka technik zorientowanych na wydajność. Jak wyjaśnia Meituan: „LongCat-Video generuje filmy w rozdzielczości 720p, 30 klatek na sekundę w ciągu kilku minut, stosując strategię generowania od zgrubnej do dokładnej wzdłuż osi czasowej i przestrzennej”.

Strategia od zgrubnej do dokładnej (C2F) jest procesem dwuetapowym: najpierw generuje „szkic” wideo o niższej rozdzielczości, a następnie inteligentnie go udoskonala i skaluje, dodając szczegóły i tekstury.

Jest to często szybsze i daje lepsze wyniki niż próba wygenerowania wideo w pełnej wysokiej rozdzielczości za jednym razem. Co więcej, LongCat-Video wykorzystuje Block Sparse Attention, inteligentną optymalizację, która pozwala modelowi skoncentrować swoją moc obliczeniową na najważniejszych częściach sekwencji wideo zamiast przetwarzać każdą relację pikseli, co znacznie zmniejsza obciążenie przetwarzania.

Kontendent typu open source w wyścigu AI Video

Wydanie Meituana 27 października sprawia, że ​​LongCat-Video natychmiast staje się i potężny konkurent w dziedzinie oprogramowania typu open source w dziedzinie zdominowanej przez zamknięte systemy.

Jego możliwości stawiają go w bezpośredniej konkurencji z niedawno zaktualizowanym modelem Veo 3.1 firmy Google i Sora 2 firmy OpenAI. Premiera Sory 2, choć imponująca pod względem technicznym, wywołała również powszechną debatę na temat deepfake’ów i bezpieczeństwa sztucznej inteligencji, otwierając drogę dla bardziej przejrzystej, skoncentrowanej na programistach alternatywy.

Wskaźniki wydajności z raport techniczny modelu pokazuje, że ma on swój własny. W teście porównawczym VBench 2.0 LongCat-Video uzyskał łączny wynik 62,11%. W szczególności przewyższył wszystkich testowanych konkurentów w wymiarze „zdrowego rozsądku” z wynikiem 70,94%, co sugeruje silne zrozumienie realizmu fizycznego i wiarygodnego ruchu.

Firma postrzega projekt jako strategiczny krok w stronę bardziej ambitnych celów. „Generowanie wideo to kluczowa droga do modeli świata, a kluczową funkcją jest wydajne, długie wnioskowanie wideo” – zauważył zespół Meituan LongCat.

Wizja Meituan wskazuje na rozwój „modeli świata” – systemów sztucznej inteligencji z podstawowym zrozumieniem fizyki, przyczyny i skutku oraz trwałości obiektów, które mogą symulować rzeczywistość. LongCat-Video stanowi kluczowy krok w wizualnym wyrażeniu symulowanej wiedzy.

Oprócz potężnych możliwości, duży rozmiar modelu stanowi znaczącą barierę sprzętową dla indywidualnych badaczy i hobbystów. Pozostają także pytania dotyczące pochodzenia ogromnego zbioru danych wideo wykorzystywanych do celów szkoleniowych, co jest drażliwym tematem w całej branży generatywnej sztucznej inteligencji.

Posunięcie Meituan prawdopodobnie pobudzi dalsze innowacje w społeczności open source i zwiększy presję na twórców własności, aby oferowali bardziej dostępne rozwiązania.

W miarę jak programiści zaczynają integrować LongCat-Video ze swoimi przepływami pracy, jego rzeczywisty wpływ na branże kreatywne i jego możliwości przesuwanie granic opowiadania historii opartego na sztucznej inteligencji stanie się jaśniejsze.

Categories: IT Info