Het QWEN-team van Alibaba heeft Qwen-Image-Edit gelanceerd, een nieuw open-source AI-model dat direct professionele software uitdaagt, zoals Adobe Photoshop, dat wordt gebruikt door meer dan 90% van de creatieve professionals in de wereld. Wereldwijd uitgebracht op 18 augustus, stelt de tool iedereen in staat om complexe afbeeldingsbewerkingen uit te voeren met behulp van eenvoudige tekstprompts.

Het model is beschikbaar op platforms zoals huffging face , qwen chat , en via een betaalde alibaba cloud api . Het blinkt uit in het renderen en wijzigen van tekst in afbeeldingen in zowel Engels als Chinees, een traditioneel moeilijke taak voor AI.

Door dit krachtige tool gratis te bieden onder een commerciële Apache 2.0 Licentie , alibaba is escalating in de markt. Deze stap biedt een krachtig, toegankelijk alternatief voor dure, eigen systemen.

Dat verwerkt afbeeldingen via twee parallelle streams om creatieve vrijheid in evenwicht te brengen met visuele betrouwbaarheid.

Wanneer een gebruiker een afbeelding indient, voedt de eerste stream deze in een QWEN2.5-VL vision-taalmodel. Deze component haalt semantische kenmerken op hoog niveau uit, waardoor het systeem de betekenis, context van het beeld en de relatie tussen objecten kan begrijpen. Dit regelt het”wat”van de bewerking.

tegelijkertijd, een tweede stream gebruikt een variatie-autoencoder (VAE) om reconstructieve details op laag niveau vast te leggen. Deze vae was speciaal afgestemd op tekst-zware documenten om zijn vermogen om fijne details te reconstrueren, ervoor te zorgen dat delen van de afbeelding onaangeroerd door de prompt perfect bewaard blijven.

Beide sets functies worden vervolgens ingevoerd in de kern multimodale diffusietransformator van het model (MMDIT). Hierdoor kan het systeem een nauwkeurige balans vinden, bewerkingen maken die, zoals een rapport is opgemerkt, trouw zijn aan zowel de intentie van de gebruiker als de look van de oorspronkelijke afbeelding. Deze architectuur maakt twee verschillende en krachtige bewerkingsmodi mogelijk.

De eerste, semantische bewerking, is ontworpen voor brede transformaties die de algemene betekenis of stijl van het beeld veranderen. Deze modus maakt aanzienlijke wijzigingen op pixelniveau mogelijk over het hele canvas Met behoud van de kernidentiteit van het onderwerp. Praktische toepassingen omvatten het wijzigen van de stijl van een foto om te lijken op een Studio Ghibli-animatie, het roteren van een object om een nieuw gezichtspunt te onthullen of hele emoji-pakketten te maken van een mascot Hiermee kunnen gebruikers elementen toevoegen of verwijderen, de kleur van een enkel object wijzigen of delicate foto-retouchering uitvoeren, terwijl de omliggende gebieden volledig ongewijzigd blijven. Zoals Qwen-teamonderzoeker Junyang Lin opmerkte: “Het kan een streng haar verwijderen, zeer delicate beeldmodificatie.”

Een nieuwe benchmark voor tweetalige tekstbewerking

waarbij Qwen-Image-edit echt onderscheid maakt in de geavanceerde hantering van text, een capability van een eenvoudig beeldrede van een simpleted ontwerptool. Het model erft en breidt de sterke tweetalige renderingmogelijkheden van zijn voorganger, het Qwen-Image Foundation-model, dat specifiek is ontworpen om typografie te beheersen. Hierdoor kan het de tekst nauwkeurig toevoegen, verwijderen of wijzigen in zowel Engels als Chinees.

Deze functie behandelt een persistente en fundamentele zwakte in de meeste generatieve AI-systemen. Standaard diffusiemodellen worstelen vaak met tekst omdat ze afbeeldingen verwerken als enorme patronen van pixels in plaats van als symbolische tekens. Dit maakt coherente spelling, logische afstand en consistente typografie een grote hindernis, vooral voor complexe logografische scripts zoals Chinees.

Qwen-Image-Edit overwint dit door de gespecialiseerde training van de onderliggende architectuur. Het funderingsmodel werd getraind met behulp van een”Curriculum Learning”-benadering, beginnend met basisbeelden voordat u geleidelijk schaalt om tekstbeschrijvingen op paragraafniveau te verwerken. Dit werd aangevuld met een data-synthese-pijplijn die hoogwaardige, tekstrijke trainingsbeelden genereerde, waardoor het model de regels van typografie effectief leerde.

Voor gebruikers vertaalt dit zich in een ongekend niveau van controle. Het model kan behoud een originele font’s stijl, grootte, en een originele fonters Posters, logo’s of andere tekst-zware visuals zonder helemaal opnieuw te beginnen. Deze focus op high-fidelity-tekst is een belangrijk slagveld in de AI-beeldruimte, waarbij concurrenten zoals Bytedance’s Seedream 3.0 het ook een prioriteit maken.

De mogelijkheden van het model strekken zich uit tot complexe, iteratieve correcties, die de precisie toont. Het QWEN-team demonstreerde hoe een gebruiker een reeks”geketende”bewerkingen kon uitvoeren om individuele karakterfouten te repareren in een stuk gegenereerde Chinese kalligrafie. Door begrenzingsvakken op onjuiste regio’s te tekenen en nieuwe tekstprompts uit te geven, kunnen gebruikers geleidelijk verfijnen van het kunstwerk tot het is perfect , een taak die zowel semantisch begrip en precisie pixel manipulatie. Een competitieve markt

Alibaba’s beslissing om Qwen-Image-EDIT uit te brengen onder a Permissive licentie is een duidelijk strategisch gambit. Het maakt een state-of-the-art tool vrij beschikbaar voor commercieel gebruik, waarbij de bedrijfsmodellen van gevestigde spelers direct worden onderbouwd.

De lancering komt wanneer de AI-bewerkingsmarkt opwarmt. Adobe versterkte onlangs Photoshop met nieuwe Firefly-aangedreven functies zoals ‘Harmonize’ voor het combineren van objecten en ‘generatieve luxe’ voor het verbeteren van resolutie. Andere krachtige modellen van concurrenten zoals Bytedance en Black Forest Labs met beeldbewerkingsmogelijkheden zijn ook naar voren gekomen.

Deepa Subramaniam van Adobe zei dat recente innovaties gericht zijn op het verwijderen van creatieve barrières, waarin stond:”Deze nieuwe innovaties komen uit onze lopende gesprekken met de creatieve gemeenschap, waar we horen hoe we horen hoe we hulpmiddelen in foto’s kunnen verwijderen.”De open-source-aanpak van Alibaba vertegenwoordigt een ander, meer verstorend pad naar hetzelfde doel.

Deze release is de nieuwste in een snelle opeenvolging van open-source AI-lancering vanuit Alibaba. Het volgt het debuut van zijn benchmark-topping Qwen3-denkende redeneermodel en zijn geavanceerde WAN2.2-videopeldmodel.

Door krachtige open modellen voor redeneren, coderen, video en nu afbeeldingbewerking, Alibaba, is Alibaba een complete AI-ontwikkelingsstapel vrij te geven. De strategie is bedoeld om een wereldwijde ontwikkelaarsgemeenschap te cultiveren die op zijn technologie kan voortbouwen, het bevorderen van een ecosysteem dat mogelijk sneller kan innoveren dan gesloten, gepatenteerde platforms.

Deze vlaag van activiteiten signaleert een strategisch schurken weg van het complexe”hybride denken”-modi van eerdere modellen. Een woordvoerder van Alibaba Cloud bevestigde deze verschuiving en legde uit:”Na het bespreken van de gemeenschap en het nadenken over de kwestie hebben we besloten de hybride denkmodus te verlaten. We zullen nu de instructie en denkmodellen afzonderlijk trainen om de best mogelijke kwaliteit te bereiken.”Deze focus op gespecialiseerde, hoogwaardige open modellen is gericht op het bouwen van een uitgebreid ecosysteem dat de gesloten systemen die de markt domineren, kan worden overgelost.

Categories: IT Info