阿里巴巴製作了其AI驅動的視頻和圖像生成模型系列WAN 2.1,可作為開源軟件自由使用,將自己定位於Openai的Sora和Google的VEO 2。儘管OpenAI和Google對他們的模型進行了嚴格的控制,但阿里巴巴正在通過開放訪問進行更廣泛的採用。 2024年12月,該公司將其QWEN-VL車型的價格削減了85%,使其AI更容易訪問。
The following month, Alibaba launched Qwen 2.5, a multimodal AI model with a 1-million-token context length, and soon after, it unveiled Qwen 2.5-Max, which uses Mixture-of-Experts (MoE) architecture to optimize processing power.
現在,使用 WAN 2.1免費提供,阿里巴巴正在增加對繼續商業化視頻模型的AI公司的競爭壓力。
使用Wan 2.1(source 2.1(source)
WAN 2.1系列包括針對不同任務和計算需求優化的四個AI視頻生成模型。 The T2V-1.3B model is a lightweight text-to-video variant designed for 480P resolution and can run efficiently on consumer GPUs like the RTX 4090.
The T2V-14B and I2V-14B models offer higher quality 720P video generation, requiring enterprise-grade GPUs such as A100, H100, and H800 for optimal performance.此外,WAN 2.1支持圖像到視頻(I2V),視頻對動畫(V2A)和文本對圖像(T2I)任務,從而實現平滑運動合成和增強的分辨率縮放。
While smaller models prioritize efficiency, larger versions focus on high-quality AI-generated video with improved motion continuity and scene accuracy, making Wan 2.1 one of the most versatile open-source AI video generation frameworks available.
The Wan 2.1 models demonstrate strong scalability across different GPUs, making it accessible to users with both consumer-grade and high-end enterprise hardware.性能取決於使用的模型,分辨率和使用的GPU的數量。
nvidia的RTX 4090可以使用8.19GB的VRAM在單個GPU上以480p分辨率在261.4秒內以480p分辨率處理T2V-1.3B模型。當縮放到八個GPU時,性能會提高到112.3秒,內存使用率增加到12.2GB。 720p分辨率的更先進的T2V-14B模型在H800/H100 GPU上運行,處理時間從一個GPU的1837.9秒減少到八個GPU的287.9秒,而存儲器消耗下降,而69.1GB的時間從69.1GB下降到29.9GB.7GB在單個GPU上的內存。但是,當使用八個GPU時,處理時間將減少到778.2秒,峰值存儲器下降至32.9GB。 WAN 2.1的可伸縮性使其成為用戶的吸引人選擇,而無需訪問Openai的Sora或Google的VEO所使用的昂貴AI加速器。
wan 2.1由於其開放源可訪問性而脫穎而出,使其成為AI視頻生成空間中獨特的產品。與Sora和Weo 2不同,它仍然是專有的並且需要企業級基礎架構,WAN 2.1在Apache 2.0許可下可用,使開發人員和研究人員能夠將其集成到無限制的自定義AI應用程序中。
該模型支持多個AI任務,包括Text-vide-text-vide(VIDE)(VIDE)(VIDE)(VIDE)(VIDE)(VIDE)(vide)(vide)(vide),Image Image(vide),Image i 2(vide),Image i 2(VIDE),Image Im Image Im Image(Image Im Image i 2) T2i)。它的低VRAM要求使其能夠在RTX 4090(例如RTX 4090)等消費者GPU上有效運行,這使其比競爭模型更容易訪問,該型號需要昂貴的AI加速器。
另一個關鍵優勢是其高度的時間精度,通過其視頻VAE Encoder-Decoder系統實現,確保了一致的視頻協調,以確保在1080p nestrountion nistorcessions nescountions nesorce nistorce nescorce nistorence nistorce nescorce。此外,WAN 2.1對英語和中文都進行了優化,使其可用於全球用戶。
這些技術優勢的位置WAN 2.1在AI視頻中是一種負擔得起的,可擴展的和高性能的替代方案,為開發人員提供了更大的靈活性,與Openai,Google,Google,Meta和Meta的強度相比,它的靈活性更高
阿里巴巴根據WAN Bench分享了以下基準結果,該框架旨在評估AI生成的視頻模型的性能和質量,特別是WAN 2.1系列中的錄像帶。它提供了跨視頻生成多個維度的結構化和標準化的評估,從而可以直接與Openai Sora,Mochi,Mochi,Cogvideox和Cntopa變體等最新模型進行比較。 WAN BENCH根據客觀和主觀標準測量AI視頻生成的不同方面。