Das Qwen-Team von
Alibaba hat Qwen-Image-Edit gestartet, ein neues Open-Source-KI-Modell, das professionelle Software wie Adobe Photoshop direkt herausfordert, das von über 90% der weltweit kreativen Fachkräfte verwendet wird. Das am 18. August global veröffentlichte Tool ermöglicht es jedem, komplexe Bildabrechnungen mit einfachen Textaufforderungen durchzuführen. target=”_ leer”> qwen chat und über a API-API ALIBABA Cloud api . Es zeichnet sich aus der Rendern und Modifizierung von Text in Bildern sowohl in Englisch als auch in Chinesisch, eine traditionell schwierige Aufgabe für ai. Dieser Schritt bietet eine starke, zugängliche Alternative zu teuren, proprietären Systemen. Neues Tool basiert auf dem mächtigen 20-Milliarden-Parameter Qwen-Image-Foundation-Modell, das am 4. August debütierte. Seine Kerninnovation für die Bearbeitung ist eine raffinierte dalcwen_image.pdf”Ziel=”_blank”adocning.pdf”agaring”aga-coding aga-coding.pdf”Ziel=”_blank”adocen-coding.pdf”Ziel=”_blank”adocen-coding.pdf”Ziel=”_ leer”> bloße”ulacwen_image Verarbeitet Bilder durch zwei parallele Streams, um die kreative Freiheit mit visueller Treue auszugleichen. Diese Komponente extrahiert semantische Merkmale auf hoher Ebene und ermöglicht es dem System, die Bedeutung, den Kontext und die Beziehung zwischen Objekten des Bildes zu verstehen. Dies regelt das”Was”der Bearbeitung. Diese VAE wurde speziell in texthaarigen Dokumenten abgestimmt, um ihre Fähigkeit zu schärfen, feine Details zu rekonstruieren, und sicherzustellen, dass Teile des Bildes, die durch die sofortige Weise nicht erhalten bleiben, perfekt erhalten bleiben. Dies ermöglicht es dem System, eine genaue Balance zu erreichen und Änderungen vorzunehmen, die, wie ein Bericht festgestellt hat, sowohl der Absicht des Benutzers als auch dem Aussehen des Originalbildes treu sind. Diese Architektur ermöglicht zwei unterschiedliche und leistungsstarke Bearbeitungsmodi. Dieser Modus ermöglicht signifikante Änderungen im Pixel-Level über die gesamten Leinwand gleichzeitig die Kernidentität des Subjekts beibehalten. Zu den praktischen Anwendungen gehören das Ändern des Stils eines Fotos, um einer Studio-Ghibli-Animation zu ähneln, ein Objekt zu rotieren, um einen neuen Standpunkt zu enthüllen, oder das Erstellen ganzer Emoji-Packs aus einem Maskottchen. Es ermöglicht Benutzern, Elemente hinzuzufügen oder zu entfernen, die Farbe eines einzelnen Objekts zu ändern oder eine felende Foto-Retusche durchzuführen und gleichzeitig sicherzustellen, dass die umgebenden Bereiche völlig unverändert bleiben. Wie der Qwen-Team-Forscher Junyang Lin feststellte: „Es kann einen Haarstrang entfernen, eine sehr feine Bildmodifikation.“
Ein neuer Benchmark für die zweisprachige Textbearbeitung
Das Modell erbt und erweitert die starken zweisprachigen Rendering-Fähigkeiten seines Vorgängers, des Qwen-Image Foundation-Modells, das speziell für die Master-Typografie entwickelt wurde. Dies ermöglicht es, Text in englischer und chinesischer Weise genau hinzuzufügen, zu entfernen oder zu modifizieren. Standarddiffusionsmodelle haben häufig mit Text zu kämpfen, da sie Bilder als große Muster von Pixeln und nicht als symbolische Zeichen verarbeiten. Dies macht kohärente Rechtschreibung, logische Abstand und konsistente Typografie zu einer wichtigen Hürde, insbesondere für komplexe logografische Skripte wie Chinesen. Das Foundation-Modell wurde unter Verwendung eines Ansatzes „Curriculum Learning“ geschult, beginnend mit grundlegenden Bildern, bevor sie nach und nach mit Texteschreibungen auf Absatzebene verarbeitet wurden. Dies wurde durch eine Datensynthesepipeline ergänzt, die qualitativ hochwertige, textreiche Trainingsbilder generierte und dem Modell die Typografieregeln effektiv lehrte. Das Modell kann das Kunstwerk progressiv verfeinern, bis es perfekt ist. Wettbewerbsmarkt