中国のテクノロジー企業 Meituan は月曜日、新しい AI ビデオ モデル LongCat-Video をリリースし、オープンソース ソフトウェアとして無料で利用できるようにしました。

その強力な 136 億パラメータ モデルは、テキストまたは画像から高品質の数分間のビデオを生成します。これは、オープンソース テクノロジーにとって大きな進歩です。 GitHub などのプラットフォームでリリースされた LongCat-Video は、OpenAI や Google の独自モデルに直接挑戦します。

Meituan は、このリリースを、長時間の AI ビデオの品質低下などの一般的な問題を解決することで、より高度な「ワールド モデル」の開発に向けた重要なステップと位置づけています。 Meituan の動きにより、世界中の開発者や研究者が洗練されたクリエイティブ ツールにアクセスしやすくなります。

長編ビデオの統合アーキテクチャ

オープンソース コミュニティにとって重要な動きとして、Meituan は、高度な AI ビデオ ジェネレーター LongCat-Video をリリースしました。 寛容な MIT ライセンス。強力な拡散トランスフォーマー (DiT) アーキテクチャに基づいて構築された 13.6B パラメーター モデルは、ビデオ生成の複雑なタスク用の言語モデルに革命をもたらしたトランスフォーマー テクノロジーを適応させています。そのアーキテクチャは、クリエイターに汎用性の高い統一フレームワークを提供します。

Meituan LongCat のコア設計は、テキストからビデオへ、画像からビデオへ、およびビデオ継続タスクを単一のシステム内で処理できます。ユーザーにとって、これは、より流動的で統合されたクリエイティブ プロセスを意味します。

クリエイターは、テキスト プロンプトで開始して最初のシーンを生成し、参照画像を使用して特定のキャラクターをそのシーンにアニメーション化し、次にビデオの継続を使用してアクションを拡張できます。すべて、異なるツールを切り替える必要はありません。

🤯 MIT ライセンス + 5 分間のコヒーレンス + 10 倍のスピード ブースト。 Meituan は、ワールド モデル レースの有力な候補である SOTA ビデオ ベース モデルである LongCat-Video (13.6B) をオープンソース化しました。

🎥 画期的な進歩: 事前トレーニングにより、最大 5 分間の連続ビデオをネイティブに生成します。 pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 2025 年 10 月 27 日

提供された初期フレームの数に基づいてタスクを区別することにより、モデルの統合されたアプローチにより、異なるクリエイティブ モード間のシームレスな移行が可能になり、制作ワークフローが合理化されます。

耐久性の問題の解決: 劣化のない数分間のビデオ

最近、OpenAI の Sora 2 のような独自システムが見出しを独占していますが、Meituan のアプローチは、AI ビデオの最も永続的な課題の 1 つである再生時間の解決に焦点を当てています。

多くのモデルは、時間的な一貫性が失われ、わずか数秒の間に視覚的なアーティファクトが蓄積する急速な品質の低下に悩まされています。 LongCat-Video の傑出した機能は、滑らかな 720p 解像度と 1 秒あたり 30 フレームで、安定した数分間のビデオを生成できることです。

その作成者は、この画期的な成果は、ビデオ継続タスクに特化してモデルを事前トレーニングしたことによるものであり、これにより時間の経過とともに一貫性を維持するように学習できると考えています。チームによると、「LongCat-Video はビデオ継続タスクでネイティブに事前トレーニングされているため、色のずれや品質の低下なしに数分間のビデオを作成できます。」

継続に焦点を当てることで、モデルは AI ビデオを悩ませることが多い色のずれと画像の劣化に直接対処し、長い物語が最初から最後まで視覚的に一貫したままであることを保証します。

これを実現するには 実際の計算集約型プロセスでは、このモデルでは効率を重視したいくつかの手法が採用されています。 Meituan の説明によれば、「LongCat-Video は、時間軸と空間軸の両方に沿って粗いものから細かいものへの生成戦略を採用することにより、数分以内に 720p、30fps のビデオを生成します。」

その粗いものから細かいものへの (C2F) 戦略は 2 段階のプロセスです。最初にビデオの低解像度の「ドラフト」を生成し、次にそれをインテリジェントに調整およびアップスケールして、詳細と解像度を追加します。

多くの場合、これは完全な高解像度ビデオを一度に生成するよりも高速で、より良い結果が得られます。さらに、LongCat-Video は、すべてのピクセル関係を処理するのではなく、ビデオ シーケンスの最も関連性の高い部分にモデルの計算能力を集中させるスマートな最適化であるブロック スパース アテンションを使用し、処理負荷を大幅に軽減します。

AI ビデオ レースにおけるオープンソースの候補者

10 月 27 日の Meituan のリリースにより、LongCat-Video は

その機能は、最近更新された Google の Veo 3.1 モデルや OpenAI の Sora 2 と直接競合します。Sora 2 の発表は、技術的には印象的でしたが、ディープフェイクと AI の安全性に関する広範な議論を引き起こし、より透明性の高い、開発者重視の代替案への扉を開きました。

モデルの技術レポートは、モデルが独自の性質を持っていることを示しています。 VBench 2.0 ベンチマークでは、LongCat-Video は合計スコア 62.11% を達成しました。特に「常識」の面でテストしたすべての競合他社を 70.94% のスコアで上回り、物理的なリアリズムと妥当な動作をしっかりと把握していることがわかります。

同社はこのプロジェクトを、より野心的な目標に向けた戦略的な動きとして位置づけています。 「ビデオ生成はワールド モデルへの重要な経路であり、効率的な長時間ビデオ推論が重要な機能です」と Meituan LongCat チームは述べています。

Meituan のビジョンは、現実をシミュレートできる物理学、原因と結果、オブジェクトの永続性についての基礎的な理解を備えた AI システムである「ワールド モデル」の開発を目指しています。 LongCat-Video は、シミュレーションされた知識を視覚的に表現するための重要なステップです。

その強力な機能に加えて、モデルのサイズが大きいため、個人の研究者や愛好家にとってはハードウェアの大きな障壁となっています。また、生成 AI 業界全体でデリケートな話題である、トレーニングに使用される膨大なビデオ データセットの出所についても疑問が残ります。

Meituan の動きは、オープンソース コミュニティのさらなる革新に拍車をかけ、よりアクセスしやすいソリューションを提供するようプロプライエタリな開発者への圧力が高まる可能性があります。

開発者が LongCat-Video をワークフローに統合し始めるにつれ、クリエイティブ産業とその現実世界への影響は、 AI 主導のストーリーテリングの限界を押し広げる能力がより明確になるでしょう。

Categories: IT Info