Echipa Qwen a Alibaba a lansat Qwen-Image-Edit, un nou model AI open-source care contestă direct software-ul profesional precum Adobe Photoshop, care este utilizat de peste 90% din profesioniștii creativi din lume. Lansat la nivel global pe 18 august, instrumentul permite oricui să efectueze modificări complexe de imagini folosind prompturi de text simple.

Modelul este disponibil pe platforme precum Face față , Qwen Chat , și printr-un Plătite API Alibaba Cloud . Excelsează la redactarea și modificarea textului în imagini atât în ​​engleză, cât și în chineză, o sarcină în mod tradițional dificilă pentru AI.

, oferind gratuit acest instrument puternic sub un Commercial-Friendly Apache 2.0 , ALIBABA este o competiție escalată de Apache 2.0. Această mișcare oferă o alternativă puternică, accesibilă, la sisteme scumpe, proprii.

dual-encodeding nelimitarea și se semantic și aspecte edits

Pr. Un nou instrument se bazează pe puternicul model de 20 de miliarde de parametri QWEN-Image Foundation, care a debutat pe 4 august. Inovația sa principală pentru editare este un sofisticat dal-oncoding? Procesează imaginile prin două fluxuri paralele pentru a echilibra libertatea creativă cu fidelitatea vizuală.

Când un utilizator trimite o imagine, primul flux îl alimentează într-un model QWEN2.5-VL-Vision-Language. Această componentă extrage caracteristici semantice la nivel înalt, permițând sistemului să înțeleagă sensul, contextul și relația dintre obiecte. Aceasta guvernează „ceea ce” editului.

simultan, un al doilea flux folosește un autocoder variațional (VAE) pentru a capta detalii reconstructive la nivel scăzut. Acest VAE a fost special reglat pe documente grele de text pentru a-și accentua capacitatea de a reconstrui detaliile fine, asigurându-se că părțile imaginii neatinse de prompt rămân perfect păstrate.

Ambele seturi de caracteristici sunt apoi alimentate în transformatorul principal de difuzie multimodal (MMDIT). Acest lucru permite sistemului să atingă un echilibru precis, făcând modificări care, după cum a menționat un raport, fidelă atât intenției utilizatorului, cât și aspectului imaginii originale. Această arhitectură permite două moduri de editare distincte și puternice.

Prima editare semantică, este concepută pentru transformări largi care modifică sensul sau stilul general al imaginii. Acest mod permite modificări semnificative la nivel de pixeli pe întreaga pânză menținând în același timp identitatea de bază a subiectului. Aplicațiile practice includ schimbarea stilului unei fotografii pentru a semăna cu o animație Studio Ghibli, rotirea unui obiect pentru a dezvălui un nou punct de vedere sau crearea de pachete de emoji întregi dintr-o mascotă. Permite utilizatorilor să adauge sau să elimine elemente, să schimbe culoarea unui singur obiect sau să efectueze retușarea delicată a fotografiilor, asigurând în același timp zonele înconjurătoare să rămână complet neschimbate. După cum a menționat cercetătorul echipei Qwen, Junyang Lin, „poate elimina o șuviță de păr, o modificare a imaginii foarte delicată. Modelul moștenește și extinde capacitățile puternice de redare bilingvă ale predecesorului său, modelul de fundație QWEN-Image, care a fost conceput în mod special pentru a masteriza tipografia. Acest lucru îi permite să adauge, să elimine sau să modifice textul atât în ​​engleză, cât și în chineză.

Această caracteristică abordează o slăbiciune persistentă și fundamentală în majoritatea sistemelor AI generative. Modelele de difuzie standard se luptă adesea cu textul, deoarece prelucrează imaginile ca modele vaste de pixeli, mai degrabă decât ca personaje simbolice. Acest lucru face ca ortografia coerentă, distanțarea logică și tipografia consecventă să fie un obstacol major, în special pentru scripturi logografice complexe precum chineza.

Qwen-Image-Edit depășește acest lucru prin pregătirea specializată a arhitecturii sale de bază. Modelul de fundație a fost instruit folosind o abordare „învățarea curriculumului”, începând cu imagini de bază înainte de scalarea treptată pentru a gestiona descrierile textului la nivel de paragraf. Aceasta a fost completată de o conductă de sinteză a datelor care a generat imagini de instruire de înaltă calitate, bogate în text, învățând efectiv modelului regulile tipografiei.

Pentru utilizatori, aceasta se traduce într-un nivel de control fără precedent. The model can preserve an original font’s style, size, and color during edits, making it highly useful for designers needing to Personalizați afișe, logo-uri sau alte imagini grele de text fără a începe de la zero. Acest accent pe textul de înaltă fidelitate este un teren de luptă cheie în spațiul de imagine AI, concurenții precum Seedream 3.0 de la Bytedance, ceea ce îl face, de asemenea, prioritate.

Capacitățile modelului se extind la corecții complexe, iterative, prezentând precizia acestuia. Echipa Qwen a demonstrat modul în care un utilizator ar putea efectua o serie de modificări „înlănțuite” pentru a repara erorile de caracter individuale într-o bucată de caligrafie chineză generată. Prin tragerea de cutii de delimitare pe regiuni incorecte și emiterea de noi prompturi de text, utilizatorii pot rafinarea progresivă a artei până când este perfectă , o sarcină care cere atât înțelegere semantică, cât și o manipulare a paxelului deschis. GAMBIT pe o piață competitivă

decizia Alibaba de a elibera Qwen-Image-Edit sub A permisul permisiv este un tambur strategic clar. Acesta face un instrument de ultimă generație disponibil liber pentru utilizare comercială, subcotizând direct modelele de afaceri ale jucătorilor consacrați.

Lansarea vine pe măsură ce piața de editare AI se încălzește. Adobe a consolidat recent Photoshop cu noi caracteristici alimentate de Firefly, cum ar fi „Harmonize” pentru amestecarea obiectelor și „generative de lux” pentru îmbunătățirea rezoluției. Au apărut și alte modele puternice de la concurenți precum Bytedance și Black Forest Labs, cu capacități de editare a imaginilor. Abordarea open-source a Alibaba reprezintă o cale diferită, mai perturbatoare, la același obiectiv.

Această versiune este cea mai recentă dintr-o succesiune rapidă de lansare AI open-source de la Alibaba. Urmează debutul modelului său de raționament QWEN3-gândire de referință și modelul său avansat de generare video WAN2.2.

prin lansarea modelelor deschise puternice pentru raționament, codare, video și acum editare de imagini, Alibaba asamblează o stivă completă de dezvoltare AI. Strategia își propune să cultive o comunitate globală de dezvoltatori care să se bazeze pe tehnologia sa, încurajând un ecosistem care poate inova mai repede decât platformele închise, proprietate. Un purtător de cuvânt al Alibaba Cloud a confirmat această schimbare, explicând „După ce am discutat cu comunitatea și a reflectat asupra acestei chestiuni, am decis să abandonăm modul de gândire hibrid. Vom antrena acum modelele de instruire și gândire pentru a obține cea mai bună calitate posibilă”. Această concentrare pe modele deschise specializate, de înaltă calitate, își propune să construiască un ecosistem cuprinzător care să poată înconjura sistemele închise care domină piața.

Categories: IT Info