Chinesischer Tech-Riese Alibaba hat WAN2.2 veröffentlicht, ein großes Open-Source-Update für seine AI-Videogenerierungsmodelle. Die neue Serie wurde am 28. Juli vorgestellt und bezahlte direkte Rivalen wie Openai’s Sora und Googles VEO. Es führt eine MOE-Architektur (Advanced Mix of Experts) ein, um die Videoqualität zu verbessern. Dieser Schritt ist Teil der Strategie von Alibaba, den Open-Source-AI-Raum durch für Entwickler und Forschern leistungsstarke, freie Tools zu geben. Es folgt die WAN2.1-Modelle des Unternehmens, die Anfang dieses Jahres veröffentlicht wurden. href=”https://arxiv.org/abs/2503.20314″target=”_ leer”> eine erste für das Feld . Dieses erweiterte Design, das in Großsprachmodellen weit verbreitet ist, ermöglicht eine massive Zunahme der Gesamtkapazität des Modells ohne entsprechende Anstieg der Rechenkosten während der Inferenz. Die Architektur ist speziell auf den Videogenerierungsprozess zugeschnitten, wodurch die komplexe Denoisierungsaufgabe in spezialisierte Funktionen unterteilt wird. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty0MtoxMjay-1; Base64, Phn2zyb2AWV3QM94psiwidagmti4mca3nd ciihdpzhropsixmjgwiibozwlnahq9ijc0NYIG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>

Das MOE-System verwendet ein Zwei-Experten-Design. Ein Experte mit hohem Aufwand übernimmt die frühen Stadien der Generation und konzentriert sich darauf, das Gesamtlayout und die Bewegung des Videos zu etablieren. Während des Prozesses übernimmt ein „niedrigerer“ Experte, um komplizierte Details zu verfeinern und die visuelle Qualität zu verbessern. Es behält den rechnerischen Fußabdruck eines viel kleineren Modells bei.

, um diese neue Architektur zu ergänzen. Das Team legte einen starken Schwerpunkt auf der Erstellung von „Ästhetik auf Kinosebene“, indem sie akribisch kuratierte Daten mit detaillierten Beschriftungen für Beleuchtung, Komposition, Kontrast und Farbton verwenden. Eigentümer WAN-Bench 2.0.

Der vielleicht bedeutendste Teil der Veröffentlichung für die Barrierefreiheit ist das neue Ti2v-5b-Modell, Eine kompakte 5-million-Parameter-Version, die für eine effiziente Zertifikationsversion entwickelt wurde. Dieses Hybridmodell unterstützt nativ sowohl Text-zu-Video-als auch Bild-zu-Video-Aufgaben innerhalb eines einzelnen einheitlichen Frameworks. Seine Effizienz wird durch eine neue Hochkompressions-VAE (Variationsautoencoder) angetrieben, die ein bemerkenswertes Komprimierungsverhältnis erreicht, wodurch eine hochauflösende Videogenerierung für nicht eingebaute Hardware möglich ist. 24 GB VRAM. Dies bringt einem viel breiteren Publikum von Entwicklern, Forschern und Schöpfer fortgeschrittene KI-Videotools. Um diese Adoption zu beschleunigen, wurden die WAN2.2-Modelle bereits in beliebte Community-Tools integriert, darunter comfyui und comfyui und Gesichtsdiffusoren. Unternehmen wie OpenAI und Google haben ihre fortschrittlichsten Video-Modelle Sora und Veo hinter Paywalls und APIs gehalten. Diese Strategie spiegelt die Störung der KI-Bilderzeugung wider, bei der Open-Source-Modelle für geschlossene Systeme gewaltig geworden sind. Es ist der jüngste Schritt in einer Rapid-Fire-Serie von großen KI-Veröffentlichungen von Alibaba, die eine umfassende Offensive signalisiert, sich als Führungskraft in mehreren KI-Domänen zu etablieren. Diese Aktivität zeigt eine klare Strategie, um eine vollständige Reihe offener Tools für Entwickler aufzubauen. Außerdem wurde ein leistungsstarkes Agenten-Codierungsmodell, QWEN3-CODER, für die Automatisierung von Softwareentwicklungsaufgaben gestartet. Ein Sprecher sagte: „Nachdem wir mit der Community diskutiert und über die Angelegenheit nachgedacht hatten, haben wir beschlossen, den hybriden Denkmodus aufzugeben. Wir werden nun die Anweisungs-und Denkmodelle separat trainieren, um die bestmögliche Qualität zu erreichen.“ Die Wearables werden von der QWEN3-Serie angetrieben, eine Bewegung, die das Marktvertrauen aufbauen soll, indem sie ihre Software-Fähigkeiten mit einem greifbaren Verbraucherprodukt verbinden. Benchmark-Skepsis

Dieser aggressive Schub kommt zu einer Zeit der wachsenden Skepsis der Industrie gegenüber der Zuverlässigkeit von KI-Benchmarks. Nur wenige Tage vor den jüngsten Qwen-Veröffentlichungen behauptete eine Studie, dass Alibabas älteres Qwen2.5-Modell einen Schlüsselmathematik-Test „betrogen“ habe, indem sie Antworten aus kontaminierten Trainingsdaten auswendig gelernt hat. Nate Jones bemerkte, dass der AI-Strategin feststellte: „In dem Moment, in dem wir die Dominanz von Ranglanken als Ziel festlegen, riskieren wir, Modelle zu schaffen, die sich in trivialen Übungen übertreffen und bei der Realität konfrontiert sind.”Dieses Gefühl wird von Experten wie Sara Hooker, Leiterin von Cohere Labs, wiederholt, die argumentierte, dass „eine Rangliste für ein ganzes Ökosystem wichtig ist, die Anreize für sie dazu veranlasst werden, sie zu veranstalten.“ Die WAN2.2-Veröffentlichung mit dem Fokus auf materielle Fähigkeiten und Zugänglichkeit kann ein Versuch sein, die Erzählung von der Rangliste auf den realen Dienstprogramm und die offene Innovation zu verlagern.