中國科技公司美團週一發布了新的人工智能視頻模型 LongCat-Video,並以開源軟件的形式免費提供。

其強大的 136 億參數模型可以從文本或圖像生成高質量、長達數分鐘的視頻,這是開源技術的重大飛躍。 LongCat-Video 在 GitHub 等平台上發布,直接挑戰 OpenAI 和 Google 的專有模型。

美團將此次發布定位為通過解決長時間 AI 視頻質量損失等常見問題來開發更先進的“世界模型”的關鍵一步。美團的此舉讓全球的開發者和研究人員更容易使用複雜的創意工具。

先進的人工智能視頻生成器LongCat-Video, 寬鬆的麻省理工學院許可證。 13.6B 參數模型建立在強大的擴散變壓器 (DiT) 架構之上,採用了變壓器技術,該技術徹底改變了視頻生成複雜任務的語言模型。其架構為創作者提供了一個多功能、統一的框架。

美團龍貓的核心設計能夠在單個系統內處理文本轉視頻、圖像轉視頻和視頻續播任務。對於用戶來說,這意味著更加流暢和集成的創作過程。

創作者可以從文本提示開始生成初始場景,使用參考圖像將特定角色動畫化到該場景中,然後使用視頻延續來擴展動作,所有這些都無需在不同工具之間切換。

🤯 MIT 許可證 + 5 分鐘連貫性 + 10 倍速度提升。美團剛剛開源了 LongCat-Video (13.6B),這是一個 SOTA 視頻基礎模型,是世界模特競賽的有力競爭者。

🎥 突破:通過預訓練原生生成長達 5 分鐘的連續視頻…… pic.twitter.com/WuYPA9kuFV

— ModelScope (@ModelScope2022) 2025 年 10 月 27 日

通過根據提供的初始幀數區分任務,該模型的集成方法可以實現不同創意模式之間的無縫過渡,從而簡化製作工作流程。

解決耐力問題:幾分鐘長的視頻不降級

OpenAI 的 Sora 2 等專有系統最近佔據了頭條新聞,美團的方法專注於解決人工智能視頻最持久的挑戰之一:持續時間。

許多模型都遭受質量快速下降的問題,時間連貫性丟失,視覺偽影在短短幾秒鐘內積累。 LongCat-Video 的突出特點是能夠以流暢的 720p 分辨率和每秒 30 幀的速度生成穩定的、長達數分鐘的視頻。

其創建者將這一突破歸因於專門針對視頻延續任務對模型進行預訓練,從而教會它隨著時間的推移保持一致性。據該團隊介紹,“LongCat-Video 本身就針對視頻連續任務進行了預訓練,使其能夠生成長達數分鐘的視頻,而不會出現顏色漂移或質量下降。”

通過專注於連續性,該模型可以直接解決經常困擾 AI 視頻的顏色漂移和圖像質量下降問題,確保較長的敘述從頭到尾保持視覺上的連貫性。

為了實現這一計算密集型過程,該模型採用了多種注重效率的技術。正如美團解釋的那樣,“LongCat-Video 通過沿時間和空間軸採用從粗到細的生成策略,在幾分鐘內生成 720p、30fps 的視頻。”

其從粗到細 (C2F) 策略是一個兩階段過程:它首先生成較低分辨率的視頻“草稿”,然後智能地細化和升級它,添加細節和紋理。

這通常比嘗試一次性生成完整的高分辨率視頻更快並且產生更好的結果。此外,LongCat-Video採用了Block Sparse Attention這一智能優化,讓模型能夠將計算能力集中在視頻序列中最相關的部分,而不是處理每個像素關係,從而顯著降低處理負載。

AI視頻競賽中的開源競爭者

美團10月27日的發布使LongCat-Video成為 在封閉系統主導的領域中,它是直接而強大的開源競爭者。

它的功能使其與 Google 最近更新的 Veo 3.1 模型和 OpenAI 的 Sora 2 直接競爭。 Sora 2 的發布雖然在技術上令人印象深刻,但也引發了關於 Deepfakes 和 AI 安全的廣泛爭論,為更透明、以開發人員為中心的替代方案創造了機會。

模型的技術報告表明它擁有自己的技術報告。在VBench 2.0基準測試中,LongCat-Video的總得分為62.11%。它在“常識”維度上以 70.94% 的得分顯著超過了所有接受測試的競爭對手,這表明它對物理現實性和合理運動的掌握很強。

該公司將該項目視為實現更宏偉目標的戰略舉措。美團龍貓團隊表示:“視頻生成是構建世界模型的關鍵途徑,而高效的長視頻推理是關鍵能力。”

美團的願景是開發“世界模型”,即對物理、因果和物體持久性有基本了解、能夠模擬現實的人工智能係統。 LongCat-Video代表了以可視化方式表達模擬知識的關鍵一步。

除了其強大的功能之外,該模型的大尺寸對於個人研究人員和愛好者來說是一個重要的硬件障礙。用於訓練的大量視頻數據集的來源仍然是一個揮之不去的問題,這是整個生成人工智能行業的一個敏感話題。

美團的舉動可能會刺激開源社區的進一步創新,並增加專有開發人員提供更易於訪問的解決方案的壓力。

隨著開發人員開始將 LongCat-Video 集成到他們的工作流程中,它對創意產業及其發展的現實影響 突破人工智能驅動的故事講述界限的能力將變得更加清晰。

Categories: IT Info