Le géant chinois de la technologie Alibaba a publié WAN2.2, une mise à jour majeure open source de ses modèles de génération de vidéos AI. Dévoilé le 28 juillet, la nouvelle série défie directement les concurrents payés comme Sora d’Openai et Veo de Google. Il introduit une architecture de mélange avancé (MOE) pour améliorer la qualité de la vidéo.
La version comprend également un modèle 5B très efficace qui génère une vidéo 720p sur les GPU de base. Cette décision fait partie de la stratégie d’Alibaba pour diriger l’espace AI open source par donner des outils gratuits puissants aux développeurs et aux chercheurs . Il succède aux modèles WAN2.1 de l’entreprise, qui ont été publiés plus tôt cette année.
Sous le Hood: MOE Architecture and Consumer de qualité HD
WAN2.2 L’innovation principale est l’introduction d’une architecture de mélange-de-experts (MOE) dans son modèle de diffusion vidéo, un premier pour le champ . Cette conception avancée, largement validée dans les modèles de grandes langues, permet une augmentation massive de la capacité totale du modèle sans augmentation correspondante du coût de calcul pendant l’inférence. L’architecture est spécifiquement adaptée au processus de génération de vidéos, séparant la tâche de débrassement complexe en fonctions spécialisées.
Le système MOE utilise une conception à deux experts. Un expert «à bruit élevé» gère les premiers stades de la génération, en se concentrant sur l’établissement de la disposition globale et du mouvement de la vidéo. Au fur et à mesure que le processus se poursuit, un expert”à faible bruit”prend le relais pour affiner les détails complexes et améliorer la qualité visuelle.
Selon le Documentation technique du projet Il maintient l’empreinte de calcul d’un modèle beaucoup plus petit.
Pour compléter cette nouvelle architecture, WAN2.2 a été formé sur un ensemble de données considérablement élargi et raffiné, avec 65,6% de plus d’images et 83,2% de vidéos en plus que son prédécesseur, WAN2.1. L’équipe a mis l’accent sur la création de «l’esthétique au niveau cinématographique» en utilisant des données méticuleusement organisées avec des étiquettes détaillées pour l’éclairage, la composition, le contraste et les utilisateurs. Propriété Wan-Bench 2.0.
La partie la plus importante de la version de l’accessibilité est peut-être le nouveau Ti2V-5B, Une version compacte de 5 milliards de paramètres conçue pour un déploiement efficace. Ce modèle hybride prend en charge nativement les tâches de texte à vidéo et d’image à vidéo dans un seul cadre unifié. Son efficacité est tirée par un nouveau VAE à haute compression (variational autoencoder) qui atteint un rapport de compression remarquable, ce qui rend la production vidéo haute définition possible sur le matériel non-entreprise.
Cette percée permet au modèle TI2V-5B de générer une vidéo 720p à 24 p. Vram. Cela apporte des outils vidéo AI avancés à un public beaucoup plus large de développeurs, de chercheurs et de créateurs. Pour accélérer cette adoption, les modèles WAN2.2 ont déjà été intégrés dans des outils communautaires populaires, y compris comfyui et Hugging Face Diffusers.
La décision d’Alibaba de publier Wan2.2 sous une licence APACHE 2.0 permissive est un défi stratégique direct pour les modèles propiceux fermés qui dominent le haut final du marché. Des sociétés comme Openai et Google ont gardé leurs modèles vidéo les plus avancés, Sora et Veo, derrière les salles de paiement et les API.
En offrant une alternative puissante et gratuite, Alibaba augmente la concurrence et les paris qu’un écosystème ouvert favorise une innovation plus rapide et une adoption plus large. Cette stratégie reflète les perturbations observées dans la génération d’images AI, où les modèles open source sont devenus des concurrents formidables pour les systèmes fermés.
Une partie d’un écosystème d’IA plus large de l’IA
Le lancement WAN2.2 n’est pas un événement isolé. Il s’agit de la dernière décision d’une série à tir rapide de grandes versions d’IA d’Alibaba, signalant une offensive complète pour s’établir comme un leader dans plusieurs domaines de l’IA. Cette vague d’activité démontre une stratégie claire pour construire une suite complète d’outils ouverts pour les développeurs.
Au cours de la semaine précédente, la société a dévoilé son nouveau modèle de raisonnement phare, QWEN3-Thinking-2507, qui a dépassé les principaux repères de l’industrie. Il a également lancé un puissant modèle de codage agentique, Qwen3, pour automatiser les tâches de développement de logiciels.
Ce pivot stratégique a été souligné par une déclaration d’Alibaba Cloud, qui a expliqué sa décision d’abandonner le mode”pensée hybride”des modèles antérieurs. Un porte-parole a déclaré:”Après avoir discuté avec la communauté et réfléchi à la question, nous avons décidé d’abandonner le mode de pensée hybride. Nous allons maintenant former les modèles d’instructions et de réflexion séparément pour obtenir la meilleure qualité possible.”
pour présenter l’application réelle de son AI, Alibaba a également prévisié son nouveau”quark Ai”Smart Glopes. Les appareils portables sont alimentés par la série QWEN3, une décision conçue pour renforcer la confiance du marché en connectant ses prouesses logicielles à un produit de consommation tangible.
La gang de chansons de Song of Alibaba Information Business Group a partagé sa vision de la technologie, indiquant que”Ai Gloches deviendra la forme la plus importante de l’intelligence portable-elle servira à un autre lancement d’oreilles pour les humains.”Scepticisme de référence
Cependant, cette poussée agressive vient à un moment de scepticisme croissant de l’industrie quant à la fiabilité des références de l’IA. Quelques jours seulement avant les sorties de QWEN, une étude a allégué que le plus ancien modèle QWEN2.5 d’Alibaba avait”triché”un test mathématique clé en mémorisant les réponses à partir de données d’entraînement contaminées.
La controverse met en évidence un problème systémique de”l’enseignement au test”dans la race pour la dominance de classement. Comme l’a noté le stratège de l’IA, Nate Jones, «au moment où nous avons fixé la domination des classements comme objectif, nous risquons de créer des modèles qui excellent dans les exercices triviaux et que la plie face à la réalité». Ce sentiment est repris par des experts comme Sara Hooker, chef de Cohere Labs, qui a fait valoir que «lorsqu’un classement est important pour tout un écosystème, les incitations sont alignées pour qu’elle soit en jouant.»
Alors qu’Alibaba s’est déplacé vers de nouveaux modèles comme Qwen3, les allégations quittent une ombre sur le «bancmark WARS» qui a défini la compétition AI. La version WAN2.2, avec son accent sur les capacités tangibles et l’accessibilité, peut être une tentative de déplacer le récit des scores de classement à l’utilité réelle et à l’innovation ouverte.