Alibaba a dezvăluit Qwen VLO, o puternică AI multimodală care generează și editează imagini de înaltă calitate, marcând o escaladare semnificativă în cursa AI globală. Noul „AI Creative Engine”, lansat vineri, 27 iunie, îi provoacă direct pe concurenți occidentali precum Google și OpenAI prin unificarea înțelegerii vizuale avansate cu instrumente de creare sofisticate într-un singur sistem.
QWEN VLO Model permite utilizatorilor să creeze scene complexe și să efectueze modificări pe fly-the-fly folosind instrucțiuni în limbaj simplu în mai multe limbi. În Anunțul oficial , Alibaba a încadrat eliberarea ca o mișcare de a crea un model care nu numai că „înțelege” lumea, ci și generează recreeri de înaltă calitate. Lansarea, care vine la doar câteva zile după lansarea Google a generatorului său de imagini Imagen 4, subliniază ritmul înfloritor al inovației pe piața de generare a imaginilor AI.
Noul model este disponibil în prezent ca previzualizare publică prin intermediul companiei Qwen Chat platformă. În timp ce Alibaba a recunoscut că versiunea de previzualizare a cunoscut limitări, aceasta a declarat un angajament de îmbunătățire a stabilității și robustetei modelului. This strategy of rapid, public-facing iteration signals the company’s intent to capture market and mind share by placing its newest tools directly into users’ hands.
Technical Capabilities of Qwen VLO
La baza sa, Qwen VLO este conceput ca un model unificat care îmbină înțelegerea multimodală cu capacități generative. Conform detaliilor echipei QWEN, modelul folosește o metodă inovatoare de generare progresivă, construind imagini treptat de la stânga la dreapta și de sus în jos. Acest mecanism este conceput nu numai pentru a îmbunătăți calitatea și coerența vizuală finală, ci și pentru a oferi utilizatorilor un proces creativ mai flexibil și controlabil.
Un avantaj tehnic cheie al Qwen VLO este utilizarea sa de formare dinamică cu rezoluție. Acest lucru permite modelului să susțină generarea de imagini la rezoluții arbitrare și raporturi de aspect, eliberând creatorii de constrângerile formatelor fixe. Această flexibilitate o face potrivită pentru o gamă largă de aplicații, de la huse de social media și bannere web până la ilustrații și afișe de înaltă rezoluție.
Modelul demonstrează, de asemenea, capacități avansate de urmărire a instrucțiunilor. Suportă comenzi de limbaj natural deschis, pentru sarcini complexe de editare, cum ar fi transferuri de stil artistic, reconstrucția scenei și modificarea obiectului. Mai mult, QWEN VLO poate prelucra mai multe operațiuni într-o singură instrucțiune complexă, permițându-i să se ocupe de sarcini creative în mai multe etape într-o singură dată. Modelul chiar își extinde abilitățile generative la sarcinile tradiționale de percepție, capabile să producă hărți de profunzime, măști de segmentare și informații de detectare a marginilor prin solicitări simple de editare, reducând efectiv decalajul dintre percepția și creația AI.