Alibaba ha reso la sua serie di modelli di generazione di video e immagini alimentata dall’intelligenza artificiale, WAN 2.1, liberamente disponibile come software open source, posizionandosi contro modelli proprietari come Opens’s Sora e Google’s Veo 2.

The Move Move Segnala un grande cambiamento nel mercato dei video AI, dove la maggior parte dei modelli di fascia alta rimane bloccati dietro i paywall. Mentre Openai e Google hanno un accesso strettamente controllato ai loro modelli, Alibaba sta scommettendo sull’adozione più ampia attraverso l’accesso aperto.

Alibaba’s Il rilascio open source di WAN 2.1 fa parte di una spinta più grande di Alibaba per espandere le sue offerte di intelligenza artificiale. Nel dicembre 2024, la società ha ridotto il prezzo dei suoi modelli QWEN-VL dell’85%, rendendo la sua AI più accessibile.

Il mese seguente, Alibaba ha lanciato Qwen 2.5, un modello di AI multimodale con una lunghezza del contesto di 1 milione di persone, e subito dopo, ha svelato Qwen 2.5-Max, che utilizza l’architettura della miscela di esperti (MOE) per ottimizzare Potenza di elaborazione.

Ora, con wan 2.1 disponibile gratuitamente , Alibaba sta aumentando la pressione competitiva sulle aziende di AI che continuano a commercializzare I loro modelli video.

Esempi di scena video creati con WAN 2.1 (Fonte: Alibaba)

Dettagli tecnici di WAN 2.1 Series

WAN 2.1 è una serie di modelli di generazione di video AI open source progettata per efficienza, scalabilità e accessibilità. Sulla base delle sue prestazioni computazionali e dei risultati di benchmarking, si distingue come un’alternativa economica agli strumenti video di AI proprietari mantenendo la qualità competitiva.

La serie WAN 2.1 include quattro modelli di generazione di video AI ottimizzati per diverse attività e bisogni computazionali. Il modello T2V-1.3B è una variante text-video leggera progettata per una risoluzione 480p e può funzionare in modo efficiente su GPU del consumatore come RTX 4090.

I modelli T2V-14B e I2V-14b offrono una qualità superiore Generazione video 720p, che richiede GPU di livello aziendale come A100, H100 e H800 per prestazioni ottimali. Inoltre, WAN 2.1 supporta compiti da immagine a video (I2V), video-animazione (V2A) e text-a-immagine (T2I), consentendo la sintesi del movimento regolare e il ridimensionamento della risoluzione avanzata.

Mentre i modelli più piccoli danno la priorità all’efficienza, versioni più grandi si concentrano su video generati dall’IA di alta qualità con una migliore continuità del movimento e accuratezza della scena, rendendo disponibili Wan 2.1 uno dei più versatili framework di generazione di video open source disponibili.

I modelli WAN 2.1 dimostrano una forte scalabilità tra diverse GPU, rendendolo accessibile agli utenti con hardware aziendale sia di livello consumer che di fascia alta. Le prestazioni variano a seconda del modello, della risoluzione e del numero di GPU utilizzate.

RTX 4090 di Nvidia può gestire il modello T2V-1.3b a una risoluzione 480p in 261,4 secondi su una singola GPU, usando 8,19 GB di VRAM. Se ridimensionati a otto GPU, le prestazioni migliorano a 112,3 secondi, con l’utilizzo della memoria che aumenta a 12,2 GB. Il modello T2V-14B più avanzato con una risoluzione 720p funziona su GPU H800/H100, con il tempo di elaborazione che diminuisce da 1837,9 secondi su una GPU a 287,9 secondi su otto GPU, mentre il consumo di memoria scende da 69,1 GB a 29,9 GB. p> L’hardware H20 di Alibaba è ottimizzato per modelli più grandi come i2V-14b, che richiedono 5494,8 secondi e 76,7 GB di memoria su una singola GPU. Tuttavia, quando si utilizza otto GPU, il tempo di elaborazione si riduce a 778,2 secondi, con la memoria di picco che scende a 32,9 GB. La scalabilità di WAN 2.1 lo rende un’opzione interessante per gli utenti senza accesso a costosi acceleratori di AI come quelli utilizzati da Sora di Openi o Google’s Veo.

WAN 2.1 si distingue a causa della sua accessibilità open source, rendendolo A Offerta unica nello spazio della generazione di video AI. A differenza di Sora e Veo 2, che rimangono proprietari e richiedono un’infrastruttura a livello aziendale, WAN 2.1 è disponibile con la licenza Apache 2.0, consentendo agli sviluppatori e ai ricercatori di integrarlo in applicazioni AI personalizzate senza restrizioni.

Il modello supporta Attività di AI multiple, tra cui text-to-video (T2V), immagine a video (I2V), editing video (V2A), e text-to-immagine (T2I). Il suo basso requisito VRAM gli consente di funzionare in modo efficiente sulle GPU del consumatore come la RTX 4090, rendendolo molto più accessibile rispetto ai modelli concorrenti, che richiedono costosi acceleratori di intelligenza artificiale.

Un altro vantaggio chiave è la sua alta precisione temporale, ottenuta attraverso Il suo sistema di codificatore ecoder VIDE VAE, garantendo una coerenza video costante con una risoluzione di 1080p. Inoltre, WAN 2.1 è ottimizzato sia per l’inglese che per il cinese, rendendolo accessibile agli utenti globali.

Questi punti di forza tecnici posizionano WAN 2.1 come alternativa economica, scalabile e ad alte prestazioni nella generazione di video AI, fornendo sviluppatori con maggiore flessibilità rispetto alle soluzioni proprietarie di Openai, Google e Meta.

Come Wan 2.1 esegue di nuovo OpenAI’s Sora

Alibaba ha condiviso i seguenti risultati di riferimento basati su Wan-Bench, un framework progettato per valutare le prestazioni e la qualità dei modelli video generati dall’AI, in particolare quelli della serie WAN 2.1. Fornisce una valutazione strutturata e standardizzata attraverso molteplici dimensioni della generazione di video, consentendo il confronto diretto con modelli all’avanguardia come le varianti di Sora, Mochi, Cogvideox e Cntopa di Openai. Wan-Bench misura diversi aspetti della generazione di video AI in base a criteri oggettivi e soggettivi.

Fonte: Alibaba

Come la mossa di Alibaba rimodella il mercato video AI

Il settore video AI è diventato una delle aree più competitive dell’intelligenza artificiale, con le aziende che corrono per offrire più avanzate e avanzate e avanzate Strumenti accessibili. Sora di Openi ha fatto notizia per la sua capacità di generare contenuti video dettagliati dal testo, ma il modello rimane dietro un paywall.

Google, tramite Veo 2, ha introdotto la generazione di video AI ad alta definizione 4K, utilizzando attualmente il miglior modello di generazione di video disponibile. YouTube ha già integrato Veo 2 nella sua popolare piattaforma di cortometraggi.

Amazon ha preso un percorso diverso con Nova Ai, che integra testo, immagine e generazione di video in modo ottimizzato per le aziende. A differenza di Alibaba, Amazon moneta ancora l’accesso, ma la crescente disponibilità di modelli AI gratuiti potrebbe forzare gli aggiustamenti delle strategie di prezzo in tutto il settore.

API Alpha Turbo Gen-3 di Runway è un altro esempio di come si stanno evolvendo i modelli video AI Al di là di pochi giocatori chiave. Offrendo elaborazioni più veloci e strumenti più accessibili, Runway ha attirato creatori e società di produzione indipendenti. Se le alternative open source come Wan 2.1 possono eguagliare questo livello di qualità, potrebbe portare a un cambiamento fondamentale nel modo in cui è distribuita la tecnologia video AI./H3>

Il rilascio di un modello video AI open source introduce preoccupazioni sull’uso improprio, in particolare in aree come disinformazione e creazione di DeepFake. I governi si stanno già muovendo per regolare i contenuti generati dall’AI, con l’Unione europea che applicano misure di trasparenza più rigorose e spingendo per la filigrana digitale nei media generati dall’IA.

In risposta, aziende come Google e Meta hanno implementato strumenti come Synthid e Video Seal, garantendo che i contenuti generati dall’IA possono essere monitorati anche dopo le modifiche.

Bytedance ha dovuto affrontare un controllo di recente dopo di recente Rilascio di Omnihuman-1, un’intelligenza artificiale in grado di generare video in stile profondo altamente realistico da un’unica immagine. Le preoccupazioni relative ai contenuti generati dall’IA evidenziano l’importanza delle caratteristiche di sicurezza, ma Alibaba non ha annunciato se integrerà protezioni simili in WAN 2.1.

Come l’IA open-source potrebbe spostare l’industria

La mossa di Alibaba sfida l’idea che i modelli di intelligenza artificiale di alta qualità debbano rimanere proprietari. Segue una tendenza vista nella generazione di immagini, in cui modelli open source come la stabile diffusione di stabilità AI 3.5 hanno interrotto il dominio di sistemi chiusi come Dall · E di Openai. Se gli sviluppatori abbracciano WAN 2.1 su larga scala, potrebbe fare pressione sulle aziende come Openai e Google per riconsiderare i loro modelli commerciali o rischiare di perdere quote di mercato negli strumenti video AI. del settore dell’intelligenza artificiale. Fornendo un accesso illimitato, riduce la barriera per gli sviluppatori e le aziende che desiderano integrare la generazione di video AI nei loro prodotti. La disponibilità del modello potrebbe anche costringere i concorrenti a riconsiderare il loro approccio, in particolare poiché le aziende valutano i benefici dell’apertura contro i rischi di perdere il controllo sulla tecnologia proprietaria.

Categories: IT Info