gjigandi kinez i teknologjisë Alibaba ka lëshuar WAN2.2, një azhurnim i madh me burim të hapur për modelet e saj të gjenerimit të videove AI. Zbuluar në 28 korrik, seria e re sfidon drejtpërdrejt rivalët e paguar si Sora i Openai dhe VEO i Google. Ai prezanton një arkitekturë të përparuar të përzierjes së ekspertëve (MOE) për të përmirësuar cilësinë e videos. Kjo veprim është pjesë e strategjisë së Alibaba për të udhëhequr hapësirën me burim të hapur AI nga duke dhënë mjete të fuqishme, falas për zhvilluesit dhe studiuesit . Ajo pason modelet WAN2.1 të kompanisë, të cilat u publikuan në fillim të këtij viti. href=”https://arxiv.org/abs/2503.20314″target=”_ bosh”> a e para për fushën . Ky dizajn i përparuar, i vlefshëm gjerësisht në modele të mëdha gjuhësore, lejon një rritje masive të kapacitetit të përgjithshëm të modelit pa një rritje përkatëse të kostos llogaritëse gjatë konkluzionit. Arkitektura është përshtatur posaçërisht për procesin e gjenerimit të videos, duke e ndarë detyrën komplekse të denoizimit në funksione të specializuara. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mty0mtoxmjay-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3nd CIIHDPZHROPSIXMJGWIIBOZWLNAHQ9IJC0NYIGEG1SBNM9IMH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>

Sistemi MOE përdor një dizajn me dy ekspertë. Një ekspert”me zhurmë të lartë”merret me fazat e hershme të gjenerimit, duke u përqëndruar në krijimin e paraqitjes dhe lëvizjes së përgjithshme të videos. Ndërsa procesi vazhdon, një ekspert”me zhurmë të ulët”merr përsipër të rafinojë detaje të ndërlikuara dhe të përmirësojë cilësinë vizuale.

Ai mban gjurmën llogaritëse të një modeli shumë më të vogël. Ekipi vendosi një theks të rëndë në krijimin e”estetikës së nivelit kinematik”duke përdorur të dhëna të kuruara me përpikëri me etiketa të hollësishme për ndriçim, përbërje, kontrast dhe ton ngjyrash. Pronësi i pronarit të Alibaba Wan-Bench 2.0.

Ndoshta pjesa më domethënëse e lëshimit për akses është e reja TI2V-5B model, një version kompakt 5-miliardë-paramet i dizajnuar për vendosjen e efektshme. Ky model hibrid mbështet në mënyrë natyrale si tekst-në-video dhe detyra imazhi-në-video brenda një kornize të vetme të unifikuar. Efikasiteti i tij drejtohet nga një vae i ri me kompresim të lartë (autoencoder variacional) që arrin një raport të mrekullueshëm të kompresimit, duke e bërë gjenerimin e videos me definicion të lartë të realizueshëm në pajisjen jo-ndërmarrje. VRAM Kjo sjell mjete të përparuara video të AI për një audiencë shumë më të gjerë të zhvilluesve, studiuesve dhe krijuesve. Për të përshpejtuar këtë birësim, modelet WAN2.2 tashmë janë integruar në mjetet e komunitetit popullor, duke përfshirë comfyui dhe Përqafimi i fytyrës. Kompanitë si Openai dhe Google kanë mbajtur modelet e tyre më të përparuara të videove, Sora dhe Veo, pas Paywalls dhe API. Kjo strategji pasqyron prishjen e parë në gjenerimin e imazhit të AI, ku modelet me burim të hapur janë bërë konkurrentë të frikshëm në sisteme të mbyllura. Isshtë lëvizja e fundit në një seri të shpejtë të lëshimeve të mëdha të AI nga Alibaba, duke sinjalizuar një ofensivë gjithëpërfshirëse për t’u vendosur si një udhëheqës në fusha të shumta të AI. Kjo mori aktiviteti demonstron një strategji të qartë për të ndërtuar një grup të plotë mjetesh të hapura për zhvilluesit. Ai gjithashtu nisi një model të fuqishëm të kodimit agjent, QWEN3-Coder, për automatizimin e detyrave të zhvillimit të softuerit. Një zëdhënës tha,”Pasi të diskutojmë me komunitetin dhe të reflektojmë për këtë çështje, ne kemi vendosur të braktisim mënyrën e të menduarit hibrid. Tani do të trajnojmë modelet e udhëzimeve dhe të menduarit veçmas për të arritur cilësinë më të mirë të mundshme.”Veshjet e veshura mundësohen nga seria QWEN3, një veprim i krijuar për të ndërtuar besimin e tregut duke lidhur aftësinë e saj të softuerit me një produkt të prekshëm të konsumit. Mes skepticizmit të standardeve

Sidoqoftë, kjo shtytje agresive vjen në një kohë të skepticizmit të industrisë në rritje për besueshmërinë e standardeve të AI. Vetëm disa ditë para lëshimeve të fundit të Qwen, një studim pretendoi se modeli i vjetër QWEN2.5 i Alibaba kishte”mashtruar”në një test kryesor të matematikës duke mësuar përmendësh përgjigje nga të dhënat e ndotura të trajnimit. Siç vuri në dukje strategu i AI, Nate Jones,”në momentin që ne vendosëm mbizotërimin e drejtuesit si qëllim, ne rrezikojmë të krijojmë modele që shkëlqejnë në ushtrime të parëndësishme dhe flakërojnë kur përballemi me realitetin”. Ky ndjenjë është bërë jehonë nga ekspertë si Sara Hooker, kreu i Chere Labs, i cili argumentoi se”kur një tabelë drejtuese është e rëndësishme për një ekosistem të tërë, stimujt janë rreshtuar që ai të jetë i butë.”Lëshimi WAN2.2, me fokusin e tij në aftësitë e prekshme dhe aksesueshmërinë, mund të jetë një përpjekje për të zhvendosur narracionin nga rezultatet e drejtuesve në mjetin e botës reale dhe inovacionin e hapur.