Ang koponan ng QWEN ng Alibaba ay naglunsad ng Qwen-image-edit, isang bagong open-source na modelo ng AI na direktang hinamon ang propesyonal na software tulad ng Adobe Photoshop, na ginagamit ng higit sa 90% ng mga malikhaing propesyonal sa mundo. Inilabas sa buong mundo noong Agosto 18, pinapayagan ng tool ang sinuman na magsagawa ng mga kumplikadong pag-edit ng imahe gamit ang mga simpleng senyas ng teksto. target=”_ blangko”> qwen chat , at sa pamamagitan ng isang bayad na alibaba cloud api . Ito ay humihiwalay sa pag-render at pagbabago ng teksto sa loob ng mga imahe sa parehong Ingles at Tsino, isang tradisyonal na mahirap na gawain para sa AI. Ang paglipat na ito ay nag-aalok ng isang malakas, naa-access na alternatibo sa mahal, pagmamay-ari ng mga sistema. Ang bagong tool ay itinayo sa malakas na 20-bilyong parameter na qwen-image foundation model, na nag-debut noong Agosto 4. na nagpoproseso ng mga imahe sa pamamagitan ng dalawang magkaparehong mga stream upang balansehin ang kalayaan ng malikhaing may visual na katapatan. Ang sangkap na ito ay kumukuha ng mga tampok na semantiko na may mataas na antas, na nagpapahintulot sa system na maunawaan ang kahulugan, konteksto, at ang ugnayan sa pagitan ng mga bagay. Pinamamahalaan nito ang”ano”ng pag-edit. Ang VAE na ito ay espesyal na maayos sa mga dokumento na mabibigat ng teksto upang patalasin ang kakayahang muling mabuo ang mga magagandang detalye, na tinitiyak na ang mga bahagi ng imahe na hindi nababago ng prompt ay mananatiling perpektong napanatili. Pinapayagan nito ang system na hampasin ang isang tumpak na balanse, paggawa ng mga pag-edit na, tulad ng nabanggit ng isang ulat, na tapat sa hangarin ng gumagamit at ang hitsura ng orihinal na imahe. Ang arkitektura na ito ay nagbibigay-daan sa dalawang magkakaibang at malakas na mga mode ng pag-edit. Ang mode na ito Pinapayagan ang mga makabuluhang pagbabago sa pixel-level sa buong canvas Habang pinapanatili ang pangunahing pagkakakilanlan ng paksa. Kasama sa mga praktikal na aplikasyon ang pagbabago ng istilo ng isang larawan upang maging katulad ng isang studio ghibli animation, pag-ikot ng isang bagay upang magbunyag ng isang bagong pananaw, o paglikha ng buong mga pack ng emoji mula sa isang maskot. Pinapayagan nito ang mga gumagamit na magdagdag o mag-alis ng mga elemento, baguhin ang kulay ng isang solong bagay, o magsagawa ng maselan na retouching ng larawan habang tinitiyak ang mga nakapalibot na lugar ay mananatiling hindi nagbabago. Tulad ng nabanggit ng Qwen Team Researcher na si Junyang Lin,”Maaari itong alisin ang isang strand ng buhok, napaka-pinong pagbabago ng imahe.”

Ang modelo ay nagmamana at nagpapalawak ng malakas na kakayahan sa pag-render ng bilingual ng hinalinhan nito, ang modelo ng Qwen-Image Foundation, na partikular na inhinyero upang master typography. Pinapayagan nito na tumpak na magdagdag, mag-alis, o magbago ng teksto sa parehong Ingles at Tsino. Ang mga karaniwang modelo ng pagsasabog ay madalas na nakikibaka sa teksto dahil pinoproseso nila ang mga imahe bilang malawak na mga pattern ng mga pixel kaysa sa mga simbolikong character. Ginagawa nitong magkakaugnay na pagbaybay, lohikal na spacing, at pare-pareho ang palalimbagan ng isang pangunahing sagabal, lalo na para sa mga kumplikadong script ng logographic tulad ng Tsino. Ang modelo ng pundasyon ay sinanay gamit ang isang”pag-aaral ng kurikulum sa pag-aaral”, na nagsisimula sa mga pangunahing imahe bago unti-unting pag-scale upang mahawakan ang mga paglalarawan ng antas ng talata. Ito ay pupunan ng isang pipeline ng synthesis ng data na nakabuo ng mataas na kalidad, mga imahe na mayaman sa teksto, na epektibong nagtuturo sa modelo ng mga patakaran ng palalimbagan. Ang modelo ay maaaring Patuloy na pinuhin ang likhang sining hanggang sa perpekto ito Sa isang mapagkumpitensyang merkado

Ginagawa nitong malayang magagamit ang isang tool na state-of-the-art para sa komersyal na paggamit, direktang sumasaklaw sa mga modelo ng negosyo ng mga naitatag na manlalaro. Kamakailan lamang ay pinalakas ng Adobe ang Photoshop na may mga bagong tampok na pinapagana ng firefly tulad ng’Harmonize’para sa mga blending object at’generative upscale’para sa pagpapahusay ng resolusyon. Ang iba pang mga makapangyarihang modelo mula sa mga kakumpitensya tulad ng Bytedance at Black Forest Labs na may mga kakayahan sa pag-edit ng imahe ay lumitaw din. Ang open-source na diskarte ng Alibaba ay kumakatawan sa ibang, mas nakakagambalang landas sa parehong layunin. Sinusundan nito ang pasinaya ng modelo ng benchmark-topping na QWEN3-pag-iisip ng pangangatuwiran na modelo at ang advanced na modelo ng henerasyon ng video na WAN2.2. Ang diskarte ay naglalayong linangin ang isang pandaigdigang pamayanan ng developer na maaaring mabuo sa teknolohiya nito, na nagpapasulong ng isang ekosistema na maaaring makabago nang mas mabilis kaysa sa sarado, pagmamay-ari ng mga platform. Kinumpirma ng isang tagapagsalita ng Alibaba Cloud ang pagbabagong ito, na nagpapaliwanag”Matapos talakayin sa komunidad at sumasalamin sa bagay na ito, napagpasyahan naming iwanan ang mode na hybrid na pag-iisip. Sanayin namin ngayon ang mga modelo ng pagtuturo at pag-iisip nang hiwalay upang makamit ang pinakamahusay na posibleng kalidad.”Ang pokus na ito sa dalubhasang, de-kalidad na bukas na mga modelo ay naglalayong bumuo ng isang komprehensibong ekosistema na maaaring makasama ang mga saradong mga sistema na namumuno sa merkado.