Il team Qwen di
Alibaba ha lanciato Qwen-Image-Edit, un nuovo modello AI open source che sfida direttamente software professionale come Adobe Photoshop, che viene utilizzato da oltre il 90% dei professionisti creativi del mondo. Released globally on August 18, the tool allows anyone to perform complex image edits using simple text prompts.
The model is available on platforms like Hugging Face, Qwen chat e tramite un ha pagato Alibaba cloud Api . Eccelle nel rendering e nella modifica del testo all’interno di immagini sia in inglese che in cinese, un compito tradizionalmente difficile per l’IA.
fornendo questo potente strumento gratuitamente con un commerciale apache 2.0 di licenza a ragioni abilitanti nella competizione generativa. Questa mossa offre un’alternativa potente e accessibile a sistemi costosi e proprietari.
sblocchi a doppia ecodio modifiche semantiche e di aspetto
Il nuovo strumento è costruito sul potente parametro di 20 miliardi di basi Qwen-Image Foundation, che ha debuttato il 4 agosto. La sua innovazione principale per la modifica è un modello sofisticato Doppi di accumulazione a un’architettura di educazione contemporaneamente, un secondo flusso utilizza un autoencoder variazionale (VAE) per catturare dettagli ricostruttivi di basso livello. Questo VAE è stato appositamente messo a punto su documenti pesanti di testo per affinare la sua capacità di ricostruire dettagli fine, garantendo che le parti dell’immagine non toccate dal prompt rimangano perfettamente conservate. Entrambe le serie di caratteristiche vengano quindi alimentate nel trasformatore di diffusione multimodale centrale del modello (MMDIT). Ciò consente al sistema di trovare un equilibrio preciso, facendo modifiche che sono, come notato da un rapporto, fedeli sia all’intento dell’utente che all’aspetto dell’immagine originale. Questa architettura consente due modalità di editing distinte e potenti. Il primo editing semantico, è progettato per ampie trasformazioni che alterano il significato o lo stile generale dell’immagine. Questa modalità consente significative cambiamenti a livello di pixel in tutta la tela pur mantenendo l’identità principale del soggetto. Le applicazioni pratiche includono la modifica dello stile di una foto per assomigliare a un’animazione Studio Ghibli, ruotare un oggetto per rivelare un nuovo punto di vista o creare interi pacchetti di emoji da una mascotte. La seconda modalità, l’editing dell’aspetto, si concentra su modificazioni chirurgiche in cui la precisione è la chiave. Consente agli utenti di aggiungere o rimuovere elementi, modificare il colore di un singolo oggetto o eseguire un delicato ritocco delle foto garantendo al contempo che le aree circostanti rimangano completamente invariate. Come ha osservato il ricercatore del team Qwen Junyang Lin,”Può rimuovere una ciocca di capelli, modifica dell’immagine molto delicata.” in cui Qwen-Image-Edit si distingue davvero nella sua gestione avanzata di testo, una capitalità che si eleva da un semplice editor. Il modello eredita e estende le forti capacità di rendering bilingue del suo predecessore, il modello di fondazione dell’immagine Qwen, che è stato specificamente progettato per padroneggiare la tipografia. Ciò gli consente di aggiungere, rimuovere o modificare accuratamente il testo sia in inglese che in cinese. Questa funzione affronta una debolezza persistente e fondamentale nella maggior parte dei sistemi AI generativi. I modelli di diffusione standard spesso lottano con il testo perché elaborano le immagini come vasti modelli di pixel piuttosto che come caratteri simbolici. Ciò rende l’ortografia coerente, la spaziatura logica e la tipografia costante un grave ostacolo, in particolare per script logografici complessi come il cinese. Qwen-Image-Edit lo supera attraverso la formazione specializzata della sua architettura sottostante. Il modello di fondazione è stato addestrato utilizzando un approccio di”apprendimento del curriculum”, a partire da immagini di base prima di ridimensionare gradualmente per gestire le descrizioni dei testo a livello di paragrafo. Ciò è stato integrato da una pipeline di sintesi di dati che ha generato immagini di formazione ricca di testi di alta qualità, insegnando efficacemente al modello le regole della tipografia. Per gli utenti, questo si traduce in un livello di controllo senza precedenti. Il modello può preservare uno stile originale, di dimensioni e colore durante gli eduti Personalizza poster, loghi o altri elementi visivi pesanti di testo senza iniziare da zero. Questa attenzione al testo ad alta fedeltà è un campo di battaglia chiave nello spazio delle immagini AI, con concorrenti come anche SeedReam 3.0 di Bytedance che lo rendono una priorità. Le capacità del modello si estendono a correzioni complesse e iterative, mettendo in mostra la sua precisione. Il team Qwen ha dimostrato come un utente potesse eseguire una serie di modifiche”incatenate”per correggere errori di personaggi individuali in un pezzo di calligrafia cinese generata. Disegnando caselle di delimitazione su regioni errate e emettendo nuovi istruzioni di testo, gli utenti possono perfezionano progressivamente l’arte fino a quando non è perfetta Gambi in un mercato competitivo
La decisione di Alibaba di rilasciare Qwen-Image-Edit con una licenza permissiva è una chiara gambit strategica. Rende uno strumento all’avanguardia liberamente disponibile per uso commerciale, sottovalutando direttamente i modelli di business dei giocatori affermati. Il lancio arriva quando il mercato dell’editing AI si riscalda. Adobe ha recentemente rafforzato Photoshop con nuove funzionalità basate sul fuoco come”armonizzare”per la miscelazione di oggetti e”potenziamento generativo”per il miglioramento della risoluzione. Sono emersi anche altri potenti modelli di concorrenti come Bytedance e Black Forest Labs con funzionalità di editing di immagini. La Deepha Subramaniam di Adobe ha affermato che le recenti innovazioni mirano a rimuovere le barriere creative, affermando”Queste nuove innovazioni provengono dalle nostre conversazioni in corso con la comunità creativa, dove ascoltiamo come possiamo evolvere strumenti in Photoshop per rimuovere i barriere”. L’approccio open source di Alibaba rappresenta un percorso diverso e più dirompente rispetto allo stesso obiettivo. Questa versione è l’ultimo in una rapida successione di lanci di intelligenza artificiale open source da Alibaba. Segue il debutto del suo modello di ragionamento a base di benchmark che topping Qwen3 e del suo modello di generazione di video Wan2.2 avanzato. rilasciando potenti modelli aperti per ragionamento, codifica, video e editing di immagini, Alibaba sta assegnando uno stack completo di sviluppo dell’intelligenza artificiale. La strategia mira a coltivare una comunità di sviluppatori globali in grado di basarsi sulla sua tecnologia, promuovendo un ecosistema in grado di innovare potenzialmente più velocemente delle piattaforme proprietarie chiuse. Un portavoce di Alibaba Cloud ha confermato questo turno, spiegando”Dopo aver discusso con la comunità e riflettendo sulla questione, abbiamo deciso di abbandonare la modalità di pensiero ibrido. Ora addestreremo i modelli di istruzioni e pensieri separatamente per raggiungere la migliore qualità possibile”. Questo focus su modelli specializzati e di alta qualità mira a costruire un ecosistema completo in grado di innovare i sistemi chiusi che dominano il mercato. Un nuovo punto di riferimento per la modifica del testo bilingue