Echipa QWEN a Alibaba a lansat până în prezent QWEN3-VL, cea mai puternică serie de modele de viziune în limba vizuală.

Lansat pe 23 septembrie, flagship-ul este un model masiv de 235 de miliarde de parametri, pus în mod liber disponibil pentru dezvoltatorii din întreaga lume. Dimensiunea sa mare (471 GB) îl face un instrument pentru echipele bine resurse.

AI-ul open-source provoacă direct sisteme de top închise precum Google Gemini 2.5 Pro cu noi abilități avansate.

Acestea includ acționarea ca „agent vizual” pentru a controla aplicațiile și a înțelege videoclipuri pe ore. Lansarea este o mișcare-cheie în strategia Alibaba de a conduce câmpul AI open-source.

Această lansare nu este un eveniment izolat, ci cel mai recent salvo din campania agresivă a Alibaba de a domina peisajul AI open-source. Stacuri ale rivalilor săi occidentali.

Disponibil pe îmbrățișarea Face sub o autorizare permisivă de Apache 2.0, modelul este împărțit în echipele „instrucțiuni” și „gândiri”. susține că performanța sa este de ultimă generație. “The Instruct version matches or even exceeds Gemini 2.5 Pro in major visual perception benchmarks. The Thinking version achieves state-of-the-art results across many multimodal reasoning benchmarks,”the team stated in its announcement.

From Perception to Action: A New Visual Agent

A Inovația cheie în Qwen3-Vl este „agentul vizual”. Această caracteristică se deplasează dincolo de o simplă recunoaștere a imaginii, permițând modelului să funcționeze interfețe de utilizator grafice (GUI) computerizate și mobile).

poate recunoaște elementele de pe ecran, să înțeleagă funcțiile lor și să execute sarcinile autonom.

Acest lucru transformă modelul de la un observator pasiv într-un participant activ în medii digitale. Aplicațiile potențiale variază de la automatizarea sarcinilor software repetitive și asistarea utilizatorilor cu fluxuri de lucru complexe până la crearea de instrumente de accesibilitate mai intuitive pentru navigarea aplicațiilor.

Utilitatea practică a modelului este îmbunătățită în continuare de fereastra sa de context masiv. Suportă în mod nativ 256.000 de jetoane, extensibile până la un milion.

Acest lucru permite unui utilizator să alimenteze modelul un film întreg de lungmetraj și apoi să pună întrebări specifice despre punctele de complot sau aparițiile personajelor, pe care modelul le poate identifica până la al doilea.

noile capacități ale QWEN3-VL sunt alimentate de o revizuire arhitecturală semnificativă concepută pentru a împinge limitele înțelegerii vizuale și temporale.

Echipa QWEN a introdus trei actualizări de bază pentru a-și îmbunătăți performanța, în special cu videoclipuri de formă lungă și detalii vizuale cu granulație fină, ca detaliat în lucrarea sa tehnică .

În primul rând, modelul folosește „Interleaved-Mrope”, o metodă de codificare pozițională mai robustă. Aceasta înlocuiește abordarea anterioară în care informațiile temporale au fost concentrate în dimensiuni de înaltă frecvență. Noua tehnică distribuie datele de timp, înălțime și lățime pe toate frecvențele, îmbunătățind semnificativ înțelegerea de lungă durată, menținând înțelegerea imaginii.

În al doilea rând, introducerea tehnologiei „DeepStack” îmbunătățește captarea detaliilor vizuale. În loc să injecteze jetoane vizuale într-un singur strat al modelului de limbă, DeepStack le injectează pe mai multe straturi. Acest lucru permite o fuziune cu granulație mai fină a caracteristicilor pe mai multe niveluri de la The Vision Transformer (VIT), ascuțitând precizia de aliniere a imaginii textului modelului.

În cele din urmă, echipa și-a modernizat modelarea temporală video de la T-Rope la un mecanism de aliniere „Text-Timestamp”. Acest sistem folosește un format de intrare intercalat de timestamps și cadre video, permițând alinierea precisă, la nivel de cadru, între datele temporale și conținutul vizual. Acest lucru crește substanțial capacitatea modelului de a localiza evenimentele și acțiunile în secvențe video complexe.

Această versiune este cea mai recentă dintr-o ofensivă Rapid și deliberată de AI de la Alibaba. Compania a lansat recent modele puternice open-source pentru raționament avansat și generare de imagini de înaltă fidelitate. Această mișcare solidifică, de asemenea, un pivot strategic departe de modul „gândirea hibridă” a modelelor anterioare, care au impus dezvoltatorilor să se comporte între moduri.

Schimbarea către modele separate, specializate pentru a urmări instrucțiunile și raționamentul profund a fost determinată de feedback-ul comunitar.

Alibaba și a fost o concentrare a Alibaba pe modele distincte, de înaltă calitate, pentru a oferi dezvoltatorilor cu mai multe constante și instrumente puternice. Open-Source Gambit in a Specialized Field

Qwen3-VL enters a competitive field that is increasingly pivoting away from the monolithic “scale is all you need”philosophy.

As the computational costs of training ever-larger models yield diminishing returns, a growing movement favors specialized, efficient, and often open-weight systems designed for specific roles rather than universal Dominance.

Această alegere strategică plasează QWEN3-VL într-un domeniu divers de instrumente specializate. Câmpul se diversifică rapid, modele precum Florence-2 de la Microsoft urmărind, de asemenea, o abordare unificată, bazată pe prompt, pentru a gestiona mai multe sarcini de viziune, cum ar fi subtitrarea și detectarea obiectelor într-o arhitectură unică, coezivă.

o nișă cheie este performanța în timp real pe hardware-ul constrâns, exemplificat de RF-Detr-Det. Acest model ușor este optimizat pentru detectarea obiectelor pe dispozitivele de margine, prioritizând latența scăzută și reacția față de raționamentul interpretativ al sistemelor mai mari.

realizează acest lucru prin eficientizarea arhitecturii complexe de detr pentru o desfășurare practică și imediată în robotică și camere inteligente. Aya Vision, de exemplu, este un model cu greutate deschisă conceput special pentru a avansa cercetarea AI multilingvă și multimodală, subliniind accentul său pe abilitarea proiectelor academice și axate pe accesibilitate.

poate cea mai radicală provocare a paradigmei de scalare provine din inovația arhitecturală fundamentală. Cercetătorii au dezvăluit recent rețeaua neuronală topografică (All-TNN), un model care imită structura creierului uman pentru o eficiență energetică superioară.

evită „schimbul de greutate” comun în AI convențională, în schimb folosind o „constrângere de netezime” pentru a încuraja neuronii artificiali vecini să învețe caracteristici similare. Coauthor Zejin Lu a explicat conceptul: „Pentru oameni, atunci când detectați anumite obiecte, au o poziție tipică. Știți deja că pantofii sunt de obicei în partea de jos, pe teren. href=”https://en.wikipedia.org/wiki/convolutional_neural_network”target=”_ blank”> rețea neuronală convoluțională (CNN) .

Acest comportament asemănător omului vine cu o compensare: precizia sa brută este mai mică decât un CNN tradițional, dar consumă de zece ori mai puțină energie. Acest lucru îl face o alternativă convingătoare pentru dispozitivele cu margini cu putere redusă, în care eficiența este esențială, dovedind că designul elegant poate fi mai eficient decât calculul forței brute.

prin eliberarea unui model de viziune puternic, deschis și specializat, Alibaba pariază că crearea acestui ecosistem divers este calea cea mai sigură către inovația în această etapă.

Categories: IT Info