El equipo Qwen de
Alibaba ha lanzado Qwen-Image-Edit, un nuevo modelo de IA de código abierto que desafía directamente el software profesional como Adobe Photoshop, que es utilizado por más del 90% de los profesionales creativos del mundo. Lanzado a nivel mundial el 18 de agosto, la herramienta permite que cualquiera realice ediciones de imágenes complejas utilizando indicaciones de texto simples.
El modelo está disponible en plataformas como abrazando la cara , Qwen Chat , y a través de A pagó alibaba Cloud API . Se destaca en la representación y modificación del texto dentro de las imágenes tanto en inglés como en chino, una tarea tradicionalmente difícil para AI.
proporcionando esta poderosa herramienta de forma gratuita bajo un Comercial apacible apache 2.0 Licencia , AlibaBa es un competidor de generación en blanco. This move offers a potent, accessible alternative to expensive, proprietary systems.
Dual-Encoding Unlocks Semantic and Appearance Edits
La nueva herramienta se basa en el potente modelo de Fundación QWEN-IMage de 20 mil millones de parámetros, que se estrenó el 4 de agosto. Su innovación principal para la edición es un sofisticado dal-Arquitectura que procesa imágenes a través de dos transmisiones paralelas para equilibrar la libertad creativa con la fidelidad visual.
Cuando un usuario envía una imagen, la primera transmisión lo alimenta en un modelo de lenguaje de visión QWEN2.5-VL. Este componente extrae características semánticas de alto nivel, lo que permite que el sistema comprenda el significado, el contexto y la relación de la imagen entre los objetos. Esto rige el”qué”de la edición.
Simultáneamente, una segunda secuencia utiliza un autoencoder variacional (VAE) para capturar detalles reconstructivos de bajo nivel. Este VAE estaba especialmente ajustado en documentos pesados de texto para agudizar su capacidad de reconstruir detalles finos, asegurando que las partes de la imagen intactas por el aviso permanezcan perfectamente conservadas.
Ambos conjuntos de características se alimentan en el transformador de difusión multimodal central del modelo (MMDIT). Esto permite que el sistema alcance un equilibrio preciso, haciendo ediciones que son, como se señaló un informe, fiel tanto para la intención del usuario como para el aspecto de la imagen original. Esta arquitectura permite dos modos de edición distintos y potentes.
La primera edición semántica, está diseñada para amplias transformaciones que alteran el significado o estilo general de la imagen. Este modo permite cambios significativos en el nivel de píxel en todo el lienzo mientras se mantiene la identidad central del sujeto. Las aplicaciones prácticas incluyen cambiar el estilo de una foto para parecerse a una animación de Studio Gibli, rotar un objeto para revelar un nuevo punto de vista o crear paquetes de emoji completos de una mascota.
El segundo modo, edición de apariencia, se enfoca en modificaciones quirúrgicas donde la precisión es clave. Permite a los usuarios agregar o eliminar elementos, cambiar el color de un solo objeto o realizar retocos de fotos delicados al tiempo que garantiza que las áreas circundantes permanezcan completamente sin cambios. Como señaló el investigador del equipo Qwen, Junyang Lin,”puede eliminar un hilo de cabello, modificación de imagen muy delicada”.
Un nuevo punto de referencia para la edición de texto bilingüe
donde QWen-IMage-edit realmente se distingue realmente está en su manejo avanzado de texto, una capacidad que eleva de un editor de imagen simple a un editor de imagen simple a un editor de imagen simple a un editor de un shwen. El modelo hereda y extiende las fuertes capacidades de renderizado bilingües de su predecesor, el modelo de Fundación Qwen-Image, que fue diseñado específicamente para la tipografía maestra. Esto le permite agregar, eliminar o modificar con precisión el texto tanto en inglés como en chino.
Esta característica aborda una debilidad persistente y fundamental en la mayoría de los sistemas de IA generativos. Los modelos de difusión estándar a menudo luchan con el texto porque procesan imágenes como vastas patrones de píxeles en lugar de como caracteres simbólicos. Esto hace que la ortografía coherente, el espaciado lógico y la tipografía consistente sean un obstáculo importante, especialmente para los guiones logográficos complejos como el chino.
QWEN-IMAGE-EDIT supera esto a través de la capacitación especializada de su arquitectura subyacente. El modelo de base fue entrenado utilizando un enfoque de”aprendizaje curricular”, comenzando con imágenes básicas antes de escalar gradualmente para manejar las descripciones de texto a nivel de párrafo. Esto se complementó con una tubería de síntesis de datos que generó imágenes de entrenamiento ricas en texto de alta calidad, enseñando efectivamente al modelo las reglas de tipografía.
Para los usuarios, esto se traduce en un nivel de control sin precedentes. El modelo puede preservar el estilo original de un font, el tamaño y el color durante las ediciones , lo que hace que el estilo de un font original, el tamaño y el color durante las ediciones , lo que sea, lo que lo hace, lo que es necesario. Personalice carteles, logotipos u otras imágenes pesadas de texto sin comenzar desde cero. Este enfoque en el texto de alta fidelidad es un campo de batalla clave en el espacio de imagen de IA, con competidores como el Ream 3.0 de Bytedance, lo que también lo convierte en una prioridad.
Las capacidades del modelo se extienden a correcciones iterativas complejas y complejas, mostrando su precisión. El equipo de Qwen demostró cómo un usuario podría realizar una serie de ediciones”encadenadas”para corregir errores de caracteres individuales en una pieza de caligrafía china generada. Al dibujar cuadros delimitadores en regiones incorrectas y emitir nuevas indicaciones de texto, los usuarios pueden Refine la obra de arte hasta que sea perfecta , una tarea que exige una comprensión semántica y una manipulación de pixel preciso.
H3 Strong> una tasa APORTA> Strong. En un mercado competitivo
la decisión de Alibaba de lanzar Qwen-Image-Edit bajo A licencia permanente es un juego estratégico claro. Hace que una herramienta de vanguardia esté disponible gratuitamente para uso comercial, subutilizando directamente los modelos de negocio de los jugadores establecidos.
El lanzamiento se produce cuando el mercado de edición de IA se calienta. Adobe recientemente reforzó Photoshop con nuevas características de Firefly como”armonizar”para combinar objetos y”exclusivo generativo”para la mejora de la resolución. También han surgido otros modelos poderosos de competidores como Bytedance y Black Forest Labs con capacidades de edición de imágenes.
Deepa Subramaniam de Adobe dijo que las innovaciones recientes apuntan a eliminar las barreras creativas, indicando que”estas nuevas innovaciones provienen de nuestras conversaciones continuas con la comunidad creativa, donde escuchamos cómo podemos evolucionar las herramientas en las fotos para eliminar las barreras”. El enfoque de código abierto de Alibaba representa una ruta diferente y más disruptiva al mismo objetivo.
Esta versión es la última de una rápida sucesión de lanzamientos de IA de código abierto desde Alibaba. Sigue el debut de su modelo de razonamiento de pensamiento QWEN3 de referencia y su modelo avanzado de generación de videos WAN2.2.
al lanzar potentes modelos abiertos para razonamiento, codificación, video y ahora edición de imágenes, Alibaba está ensamblando una pila de desarrollo AI completa. La estrategia tiene como objetivo cultivar una comunidad de desarrolladores globales que pueda aprovechar su tecnología, fomentando un ecosistema que puede innovar potencialmente más rápido que las plataformas cerradas y patentadas.
Esta ráfaga de actividad señala un pivote estratégico lejos de los modos complejos de”pensamiento híbrido”de modelos anteriores. Un portavoz de Alibaba Cloud confirmó este cambio, explicando”después de discutir con la comunidad y reflexionar sobre el asunto, hemos decidido abandonar el modo de pensamiento híbrido. Ahora entrenaremos los modelos de instrucciones y pensamientos por separado para lograr la mejor calidad posible”. Este enfoque en modelos abiertos especializados y de alta calidad tiene como objetivo construir un ecosistema integral que pueda innovar los sistemas cerrados que dominan el mercado.