Das Qwen-Team von

Alibaba hat Qwen-Image-Edit gestartet, ein neues Open-Source-KI-Modell, das professionelle Software wie Adobe Photoshop direkt herausfordert, das von über 90% der weltweit kreativen Fachkräfte verwendet wird. Das am 18. August global veröffentlichte Tool ermöglicht es jedem, komplexe Bildabrechnungen mit einfachen Textaufforderungen durchzuführen. target=”_ leer”> qwen chat und über a API-API ALIBABA Cloud api . Es zeichnet sich aus der Rendern und Modifizierung von Text in Bildern sowohl in Englisch als auch in Chinesisch, eine traditionell schwierige Aufgabe für ai. Dieser Schritt bietet eine starke, zugängliche Alternative zu teuren, proprietären Systemen. Neues Tool basiert auf dem mächtigen 20-Milliarden-Parameter Qwen-Image-Foundation-Modell, das am 4. August debütierte. Seine Kerninnovation für die Bearbeitung ist eine raffinierte dalcwen_image.pdf”Ziel=”_blank”adocning.pdf”agaring”aga-coding aga-coding.pdf”Ziel=”_blank”adocen-coding.pdf”Ziel=”_blank”adocen-coding.pdf”Ziel=”_ leer”> bloße”ulacwen_image Verarbeitet Bilder durch zwei parallele Streams, um die kreative Freiheit mit visueller Treue auszugleichen. Diese Komponente extrahiert semantische Merkmale auf hoher Ebene und ermöglicht es dem System, die Bedeutung, den Kontext und die Beziehung zwischen Objekten des Bildes zu verstehen. Dies regelt das”Was”der Bearbeitung. Diese VAE wurde speziell in texthaarigen Dokumenten abgestimmt, um ihre Fähigkeit zu schärfen, feine Details zu rekonstruieren, und sicherzustellen, dass Teile des Bildes, die durch die sofortige Weise nicht erhalten bleiben, perfekt erhalten bleiben. Dies ermöglicht es dem System, eine genaue Balance zu erreichen und Änderungen vorzunehmen, die, wie ein Bericht festgestellt hat, sowohl der Absicht des Benutzers als auch dem Aussehen des Originalbildes treu sind. Diese Architektur ermöglicht zwei unterschiedliche und leistungsstarke Bearbeitungsmodi. Dieser Modus ermöglicht signifikante Änderungen im Pixel-Level über die gesamten Leinwand gleichzeitig die Kernidentität des Subjekts beibehalten. Zu den praktischen Anwendungen gehören das Ändern des Stils eines Fotos, um einer Studio-Ghibli-Animation zu ähneln, ein Objekt zu rotieren, um einen neuen Standpunkt zu enthüllen, oder das Erstellen ganzer Emoji-Packs aus einem Maskottchen. Es ermöglicht Benutzern, Elemente hinzuzufügen oder zu entfernen, die Farbe eines einzelnen Objekts zu ändern oder eine felende Foto-Retusche durchzuführen und gleichzeitig sicherzustellen, dass die umgebenden Bereiche völlig unverändert bleiben. Wie der Qwen-Team-Forscher Junyang Lin feststellte: „Es kann einen Haarstrang entfernen, eine sehr feine Bildmodifikation.“

Ein neuer Benchmark für die zweisprachige Textbearbeitung

Das Modell erbt und erweitert die starken zweisprachigen Rendering-Fähigkeiten seines Vorgängers, des Qwen-Image Foundation-Modells, das speziell für die Master-Typografie entwickelt wurde. Dies ermöglicht es, Text in englischer und chinesischer Weise genau hinzuzufügen, zu entfernen oder zu modifizieren. Standarddiffusionsmodelle haben häufig mit Text zu kämpfen, da sie Bilder als große Muster von Pixeln und nicht als symbolische Zeichen verarbeiten. Dies macht kohärente Rechtschreibung, logische Abstand und konsistente Typografie zu einer wichtigen Hürde, insbesondere für komplexe logografische Skripte wie Chinesen. Das Foundation-Modell wurde unter Verwendung eines Ansatzes „Curriculum Learning“ geschult, beginnend mit grundlegenden Bildern, bevor sie nach und nach mit Texteschreibungen auf Absatzebene verarbeitet wurden. Dies wurde durch eine Datensynthesepipeline ergänzt, die qualitativ hochwertige, textreiche Trainingsbilder generierte und dem Modell die Typografieregeln effektiv lehrte. Das Modell kann das Kunstwerk progressiv verfeinern, bis es perfekt ist. Wettbewerbsmarkt

Alibabas Entscheidung, Qwen-image-edit unter einem zu veröffentlichen. Es stellt ein hochmodernes Tool frei für den kommerziellen Gebrauch zur Verfügung, das die Geschäftsmodelle etablierter Spieler direkt unterbietet. Adobe hat Photoshop kürzlich mit neuen Firefly-betriebenen Funktionen wie „Harmonize“ für das Mischen von Objekten und „generativem hochwertigem“ zur Verbesserung der Auflösung unterstützt. Andere leistungsstarke Modelle von Wettbewerbern wie Bytedance und Schwarzwaldlabors mit Bildbearbeitungsfunktionen sind ebenfalls entstanden. Alibabas Open-Source-Ansatz ist ein anderer, disruptiverer Weg zum gleichen Ziel. Es folgt dem Debüt seines Benchmark-Toping Qwen3-Denk-Argumentationsmodells und des erweiterten WAN2.2-Videogenerierungsmodells. Die Strategie zielt darauf ab, eine globale Entwicklergemeinschaft zu fördern, die auf ihrer Technologie aufbauen und ein Ökosystem fördert, das möglicherweise schneller als geschlossene, proprietäre Plattformen innovieren kann. Ein Sprecher von Alibaba Cloud bestätigte diese Verschiebung und erklärte: „Nachdem wir mit der Community diskutiert und über die Angelegenheit nachgedacht hatten, haben wir beschlossen, den hybriden Denkmodus aufzugeben. Wir werden nun die Anweisungs-und Denkmodelle separat schulen, um die bestmögliche Qualität zu erreichen.”Diese Fokussierung auf spezialisierte, hochwertige offene Modelle zielt darauf ab, ein umfassendes Ökosystem aufzubauen, das die geschlossenen Systeme, die den Markt dominieren, innovieren können.