Intsik na higanteng tech na Alibaba ay naglabas ng WAN2.2, isang pangunahing pag-update ng open-source sa mga modelo ng henerasyon ng video ng AI. Naipalabas noong Hulyo 28, ang bagong serye ay direktang mga hamon na nagbabayad ng mga karibal tulad ng Openai’s Sora at Google’s Veo. Ipinakikilala nito ang isang advanced na arkitektura ng halo-of-exper (MOE) upang mapabuti ang kalidad ng video. Ang hakbang na ito ay bahagi ng diskarte ng Alibaba upang mamuno sa open-source AI space sa pamamagitan ng nagbibigay ng malakas, libreng tool sa mga developer at mananaliksik . Ito ay nagtagumpay sa mga modelo ng WAN2.1 ng kumpanya, na pinakawalan mas maaga sa taong ito. href=”https://arxiv.org/abs/2503.20314″target=”_ blangko”> isang una para sa patlang . Ang advanced na disenyo na ito, na malawak na napatunayan sa mga malalaking modelo ng wika, ay nagbibigay-daan para sa isang napakalaking pagtaas sa kabuuang kapasidad ng modelo nang walang kaukulang pagtaas ng gastos sa computational sa panahon ng pag-iintindi. Ang arkitektura ay partikular na naayon sa proseso ng henerasyon ng video, na naghihiwalay sa kumplikadong gawain ng denoising sa mga dalubhasang pag-andar. src=”data: imahe/svg+xml; nitro-empty-id=mty0mtoxmjay-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3nd ciihdpzhropsixmjgwiibozwlnahq9ijc0nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Ang sistema ng MOE ay gumagamit ng isang disenyo ng dalawang-dalubhasa. Ang isang dalubhasang”high-ingay”ay humahawak sa mga unang yugto ng henerasyon, na nakatuon sa pagtaguyod ng pangkalahatang layout at paggalaw ng video. Habang nagpapatuloy ang proseso, ang isang dalubhasa na”low-noise”ay kumukuha upang pinuhin ang masalimuot na mga detalye at mapahusay ang kalidad ng visual. Hakbang, pinapanatili nito ang computational footprint ng isang mas maliit na modelo. Ang koponan ay naglagay ng isang mabibigat na diin sa paglikha ng”cinematic-level aesthetics”sa pamamagitan ng paggamit ng masusing curated data na may detalyadong mga label para sa pag-iilaw, komposisyon, kaibahan, at tono ng kulay. Ang pagmamay-ari ng Alibaba Wan-Bench 2.0.

Marahil ang pinakamahalagang bahagi ng paglabas para sa pag-access ay ang bagong ti2v-5b na modelo, Isang compact 5-billion-parameter na bersyon na idinisenyo para sa mahusay na paglawak. Ang modelong hybrid na ito ay katutubong sumusuporta sa parehong mga text-to-video at mga gawain ng imahe-sa-video sa loob ng isang solong pinag-isang balangkas. Ang kahusayan nito ay hinihimok ng isang bagong high-compression na VAE (Variational Autoencoder) na nakakamit ng isang kapansin-pansin na ratio ng compression, na ginagawang posible ang henerasyong video na may mataas na kahulugan. Vram. Nagdadala ito ng mga advanced na tool sa video ng AI sa isang mas malawak na madla ng mga developer, mananaliksik, at tagalikha. Upang mapabilis ang pag-aampon na ito, ang mga modelo ng WAN2.2 ay isinama na sa mga tanyag na tool sa pamayanan, kasama ang comfyui at yakap sa mga diffuser ng mukha. Ang mga kumpanya tulad ng OpenAi at Google ay pinanatili ang kanilang pinaka-advanced na mga modelo ng video, Sora at Veo, sa likod ng mga paywalls at API. Ang diskarte na ito ay sumasalamin sa pagkagambala na nakikita sa henerasyon ng imahe ng AI, kung saan ang mga open-source na mga modelo ay naging mabigat na mga kakumpitensya sa mga saradong mga sistema. Ito ang pinakabagong paglipat sa isang mabilis na sunog na serye ng mga pangunahing paglabas ng AI mula sa Alibaba, na nag-sign ng isang komprehensibong nakakasakit upang maitaguyod ang sarili bilang isang pinuno sa maraming mga domain ng AI. Ang malabo na aktibidad na ito ay nagpapakita ng isang malinaw na diskarte upang makabuo ng isang buong suite ng mga bukas na tool para sa mga developer. Inilunsad din nito ang isang malakas na modelo ng coding ng ahente, Qwen3-Coder, para sa pag-automate ng mga gawain sa pag-unlad ng software. Sinabi ng isang tagapagsalita,”Matapos talakayin ang komunidad at sumasalamin sa bagay na ito, napagpasyahan naming iwanan ang mode na Hybrid Thinking. Sanayin namin ngayon ang mga modelo ng pagtuturo at pag-iisip nang hiwalay upang makamit ang pinakamahusay na posibleng kalidad.”Ang mga nakasuot ay pinapagana ng serye ng QWEN3, isang hakbang na idinisenyo upang mabuo ang kumpiyansa sa merkado sa pamamagitan ng pagkonekta sa katalinuhan ng software nito sa isang nasasalat na produkto ng consumer. Ang Benchmark Skepticism

Mga araw bago ang pinakabagong paglabas ng QWEN, isang pag-aaral na sinasabing ang mas matandang modelo ng QWEN2.5 ng Alibaba ay”niloko”sa isang pangunahing pagsubok sa matematika sa pamamagitan ng pagsaulo ng mga sagot mula sa kontaminadong data ng pagsasanay. Tulad ng nabanggit ng strategist ng AI na si Nate Jones,”Sa sandaling itinakda namin ang pangingibabaw ng leaderboard bilang layunin, peligro namin ang paglikha ng mga modelo na higit sa mga trivial na pagsasanay at flounder kapag nahaharap sa katotohanan.”Ang sentimentong ito ay binibigkas ng mga eksperto tulad ni Sara Hooker, pinuno ng mga lab ng Cohere, na nagtalo na”kapag ang isang leaderboard ay mahalaga sa isang buong ekosistema, ang mga insentibo ay nakahanay upang ito ay maging gamed.”

Ang paglabas ng WAN2.2, na may pokus nito sa mga nasasalat na kakayahan at pag-access, ay maaaring isang pagtatangka upang ilipat ang salaysay mula sa mga marka ng leaderboard hanggang sa real-world utility at bukas na pagbabago.