Alibabas Qwen-team har lansert Qwen-Image-redigering, en ny open source AI-modell som direkte utfordrer profesjonell programvare som Adobe Photoshop, som brukes av over 90% av verdens kreative fagpersoner. Verktøyet ble utgitt globalt 18. august, og lar alle utføre komplekse bilderedigeringer ved hjelp av enkle teksthjul.
Modellen er tilgjengelig på plattformer som kling face Qwen Chat , og gjennom en betalt alibaba sky api . Det utmerker seg med å gjengi og endre tekst innen bilder på både engelsk og kinesisk, en tradisjonelt vanskelig oppgave for AI.
ved å tilby dette kraftige verktøyet gratis under en
Det nye verktøyet er bygget på den kraftige 20 milliarder parameter qwen-immodel-modellen, som debuterte på 4. href=”https://qianwen-res.oss-cn-beijing.aliyuncs.com/qwen-image/qwen_image.pdf”Target=”_ blank”> Dual-Encoding Architecture Dual-kodende lås opp semantiske og utseende redigeringer
Samtidig bruker en andre strøm en variasjons autoencoder (VAE) for å fange opp rekonstruktive detaljer på lavt nivå. Denne VAE ble spesielt finjustert på teksttunge dokumenter for å skjerpe evnen til å rekonstruere fine detaljer, og sikre at deler av bildet som er uberørt av ledeteksten forblir perfekt bevart.
Begge funksjonene blir deretter matet inn i modellens kjerne multimodal diffusjonstransformator (MMDIT). Dette gjør at systemet kan oppnå en presis balanse, og gjør redigeringer som, som en rapport bemerket, tro mot både brukerens intensjon og det originale bildet. Denne arkitekturen muliggjør to distinkte og kraftige redigeringsmodus.
Den første, semantiske redigering, er designet for brede transformasjoner som endrer bildens generelle betydning eller stil. Denne modusen gir viktige pixel-nivåendringer over hele lerretet mens du opprettholder kjerneidentiteten til emnet. Praktiske applikasjoner inkluderer å endre stilens stil for å ligne en Studio Ghibli-animasjon, rotere et objekt for å avsløre et nytt synspunkt, eller lage hele emoji-pakker fra en maskot.
Den andre modusen, utseende redigering, fokuserer på kirurgiske modifikasjoner der presisjon er nøkkelen. Det lar brukere legge til eller fjerne elementer, endre fargen på et enkelt objekt eller utføre delikat foto retusjering mens de sikrer at de omkringliggende områdene forblir helt uendret. Som Qwen Team-forsker Junyang Lin bemerket,”Det kan fjerne en hårstreng, veldig delikat bildemodifisering.”
et nytt mål for tospråklig tekstredigering
Denne funksjonen adresserer en vedvarende og grunnleggende svakhet i de fleste generative AI-systemer. Standard diffusjonsmodeller sliter ofte med tekst fordi de behandler bilder som enorme mønstre av piksler i stedet for som symbolske karakterer. Dette gjør sammenhengende stavemåte, logisk avstand og konsistent typografi til et stort hinder, spesielt for komplekse logografiske skript som kinesisk.
Qwen-Image-redigering overvinner dette gjennom spesialisert trening av den underliggende arkitekturen. Stiftelsesmodellen ble opplært ved hjelp av en”læreplanlæring”-tilnærming, og startet med grunnleggende bilder før de gradvis skaleres for å håndtere tekstbeskrivelser på punktnivå. Dette ble supplert med en datasyntese-rørledning som genererte, tekstrike treningsbilder av høy kvalitet, og effektivt lærte modellen for typografiens regler.
For brukere oversettes dette til et enestående kontrollnivå. Modellen kan Designere som trenger å tilpasse plakater, logoer eller andre teksttunge bilder uten å starte fra bunnen av. Dette fokuset på tekst med høy troskap er en viktig slagmark i AI-bildeområdet, med konkurrenter som Bytedance Seedream 3.0 også gjør det til en prioritet.
Modellens evner utvider seg til komplekse, iterative korreksjoner, og viser frem sin presisjon. QWEN-teamet demonstrerte hvordan en bruker kunne utføre en serie”lenket”redigeringer for å fikse individuelle karakterfeil i et stykke generert kinesisk kalligrafi. Ved å tegne avgrensningsbokser i uriktige regioner og utstede nye teksthjul, kan brukere PROVINITIVE PROVINE SOUPS SOURTWORD IT IT ER PERFEKT , en oppgave som krever både semantisk forståelse og presiserer pix-manip. Et konkurransedyktig marked
Alibabas beslutning om å frigjøre Qwen-image-redigering under en permissive lisens er en klar strategisk gambit. Det gjør et topp moderne verktøy fritt tilgjengelig for kommersiell bruk, og direkte undergraver forretningsmodellene til etablerte spillere.
Lanseringen kommer når AI-redigeringsmarkedet varmes opp. Adobe styrket nylig Photoshop med nye ildfluktdrevne funksjoner som ‘harmoniserer’ for å blande gjenstander og ‘generative oppskalere’ for forbedring av oppløsning. Andre kraftige modeller fra konkurrenter som Bytedance og Black Forest Labs med bildedigeringsfunksjoner har også dukket opp.
Adobes Deepa Subramaniam sa at nyere innovasjoner har som mål å fjerne kreative barrierer, og sier at”disse nye innovasjonene kommer fra våre pågående samtaler med det kreative samfunnet, hvor vi hører hvordan vi kan utvikle verktøyet i Photoshop til å fjerne barrier. Alibabas åpen kildekode-tilnærming representerer en annen, mer forstyrrende vei til det samme målet.
Denne utgivelsen er den siste i en rask rekke etter åpen kildekode AI-lanseringer fra Alibaba. Den følger debuten til sin benchmark-topping QWEN3-tenkende resonnementsmodell og dens avanserte WAN2.2 Video Generation Model.
Ved å gi ut kraftige åpne modeller for resonnement, koding, video og nå bilderedigering, er Alibaba samlet en komplett AI-utviklingsstabel. Strategien tar sikte på å dyrke et globalt utviklersamfunn som kan bygge videre på teknologien, og fremme et økosystem som potensielt kan innovere raskere enn lukkede, proprietære plattformer.
Denne mengden av aktivitet signaliserer en strategisk pivot vekk fra den komplekse”hybridtenking”-modusene til tidligere modeller. En talsperson for Alibaba Cloud bekreftet dette skiftet, og forklarte “Etter å ha diskutert med samfunnet og reflektert over saken, har vi bestemt oss for å forlate hybrid tenkemodus. Vi vil nå trene instrument-og tenkemodellene separat for å oppnå best mulig kvalitet.”Dette fokuset på spesialiserte åpne modeller av høy kvalitet tar sikte på å bygge et omfattende økosystem som kan overkjøre de lukkede systemene som dominerer markedet.