Η ομάδα QWEN της Alibaba ξεκίνησε το Qwen-Image-Edit, ένα νέο μοντέλο AI ανοιχτού κώδικα που προκαλεί άμεσα επαγγελματικό λογισμικό όπως το Adobe Photoshop, το οποίο χρησιμοποιείται από πάνω από το 90% των δημιουργικών επαγγελματιών του κόσμου. Κυκλοφόρησε παγκοσμίως στις 18 Αυγούστου, το εργαλείο επιτρέπει σε οποιονδήποτε να εκτελεί σύνθετες επεξεργασίες εικόνων χρησιμοποιώντας απλές προτροπές κειμένου. Target=”_ blank”> qwen chat , και μέσω ενός πληρωμένο alibaba cloud api . Εξαρτάται από την απόδοση και την τροποποίηση του κειμένου μέσα σε εικόνες τόσο στην αγγλική όσο και στην κινεζική, ένα παραδοσιακά δύσκολο έργο για το AI. Αυτή η κίνηση προσφέρει μια ισχυρή, προσβάσιμη εναλλακτική λύση σε ακριβά, ιδιόκτητα συστήματα. Το νέο εργαλείο βασίζεται στην ισχυρή παράμετρο 20 δισεκατομμυρίων παραμέτρων Qwen-Image Foundation, το οποίο έκανε το ντεμπούτο του στις 4 Αυγούστου. Αρχιτεκτονική που επεξεργάζεται εικόνες μέσω δύο παράλληλων ροών για να εξισορροπήσει τη δημιουργική ελευθερία με οπτική πιστότητα. Αυτό το στοιχείο εξάγει σημασιολογικά χαρακτηριστικά υψηλού επιπέδου, επιτρέποντας στο σύστημα να κατανοεί το νόημα, το πλαίσιο και τη σχέση της εικόνας και της σχέσης μεταξύ αντικειμένων. Αυτό διέπει ταυτόχρονα το”What”της επεξεργασίας. Αυτό το VAE ήταν ειδικά προσαρμοσμένο σε έγγραφα βαρέων κειμένων για να ακονίσει την ικανότητά του να ανακατασκευάζει λεπτές λεπτομέρειες, εξασφαλίζοντας ότι τμήματα της εικόνας που έχουν αντισταθμιστεί από την προτροπή παραμένουν τέλεια διατηρημένα. Αυτό επιτρέπει στο σύστημα να επιτύχει μια ακριβή ισορροπία, καθιστώντας τις επεξεργασίες που, όπως σημειώνεται, μια έκθεση, πιστός τόσο στην πρόθεση του χρήστη όσο και στην εμφάνιση της αρχικής εικόνας. Αυτή η αρχιτεκτονική επιτρέπει δύο ξεχωριστούς και ισχυρούς τρόπους επεξεργασίας. Η πρώτη, σημασιολογική επεξεργασία, έχει σχεδιαστεί για ευρείς μετασχηματισμούς που μεταβάλλουν τη συνολική έννοια ή το στυλ της εικόνας. Αυτή η λειτουργία επιτρέπει σημαντικές αλλαγές σε επίπεδο pixel σε ολόκληρο τον καμβά Οι πρακτικές εφαρμογές περιλαμβάνουν την αλλαγή του στυλ μιας φωτογραφίας για να μοιάζει με ένα στούντιο ghibli animation, περιστρέφοντας ένα αντικείμενο για να αποκαλύψει μια νέα άποψη ή να δημιουργήσει ολόκληρα πακέτα emoji από μια μασκότ. Επιτρέπει στους χρήστες να προσθέτουν ή να καταργούν στοιχεία, να αλλάζουν το χρώμα ενός μόνο αντικειμένου ή να εκτελούν λεπτή ρετουσάρισμα φωτογραφιών, εξασφαλίζοντας παράλληλα ότι οι γύρω περιοχές παραμένουν εντελώς αμετάβλητες. Όπως σημείωσε ο ερευνητής της ομάδας Qwen Junyang Lin,”Μπορεί να αφαιρέσει ένα σκέλος των μαλλιών, πολύ λεπτή τροποποίηση εικόνας.”

Ένα νέο σημείο αναφοράς για δίγλωσσα κείμενο που επεξεργάζεται το sophistor του, το οποίο είναι το sophistor, το οποίο σχεδίαζε να σχεδιάζει το εργαλείο του. Το μοντέλο κληρονομεί και επεκτείνει τις ισχυρές δίγλωσσες δυνατότητες απόδοσης του προκάτοχού του, το μοντέλο θεμελίωσης Qwen-Image, το οποίο σχεδιάστηκε ειδικά για να κυριαρχήσει την τυπογραφία. Αυτό του επιτρέπει να προσθέτει με ακρίβεια, να αφαιρέσει ή να τροποποιήσει το κείμενο τόσο στην αγγλική όσο και στην κινεζική. Τα πρότυπα μοντέλα διάχυσης συχνά αγωνίζονται με το κείμενο επειδή επεξεργάζονται εικόνες ως τεράστια πρότυπα εικονοστοιχείων και όχι ως συμβολικοί χαρακτήρες. Αυτό καθιστά συνεκτική ορθογραφία, λογική απόσταση και συνεπή τυπογραφία ένα σημαντικό εμπόδιο, ειδικά για σύνθετα λογογραφικά σενάρια όπως οι Κινέζοι. Το μοντέλο θεμελίωσης εκπαιδεύτηκε χρησιμοποιώντας μια προσέγγιση”μάθησης προγράμματος σπουδών”, ξεκινώντας από βασικές εικόνες πριν από τη σταδιακή κλιμάκωση για να χειριστεί περιγραφές κειμένου σε επίπεδο παραγράφου. Αυτό συμπληρώθηκε από έναν αγωγό σύνθεσης δεδομένων που παρήγαγε εικόνες υψηλής ποιότητας, πλούσιες σε κείμενο, διδάσκοντας αποτελεσματικά το μοντέλο των κανόνων τυπογραφίας. Το μοντέλο μπορεί Για να προσαρμόσετε αφίσες, λογότυπα ή άλλα γραφικά βαρέως κειμένου χωρίς να ξεκινάτε από το μηδέν. Αυτή η εστίαση στο κείμενο υψηλής πιστότητας είναι ένα βασικό πεδίο μάχης στο χώρο της εικόνας AI, με ανταγωνιστές όπως το Seedream 3.0 της ByteDance, καθιστώντας επίσης προτεραιότητα. Η ομάδα QWEN κατέδειξε πώς ένας χρήστης θα μπορούσε να εκτελέσει μια σειρά από”αλυσίδες”επεξεργασίες για να διορθώσει μεμονωμένα σφάλματα χαρακτήρων σε ένα κομμάτι της κινεζικής καλλιγραφίας. Σχεδιάζοντας πλαίσια οριοθέτησης σε λανθασμένες περιοχές και εκδίδοντας νέες προτροπές κειμένου, οι χρήστες μπορούν προοδευτικά βελτιώνουν τα έργα τέχνης μέχρι να είναι τέλειο , ένα έργο που απαιτεί και ταυτόχρονα την κατανόηση και την προετοιμασία του pixel. Το Gambit σε μια ανταγωνιστική αγορά

Η απόφαση της Alibaba να απελευθερώσει το qwen-image-edit κάτω από ένα βασικό στρατηγικό gambit. Κάνει ένα υπερσύγχρονο εργαλείο ελεύθερα διαθέσιμο για εμπορική χρήση, κατευθύνοντας απευθείας τα επιχειρηματικά μοντέλα των καθιερωμένων παικτών. Η Adobe πρόσφατα ενίσχυσε το Photoshop με νέα χαρακτηριστικά που λειτουργούν με πυροσβέστες όπως το”Harmonize”για την ανάμειξη των αντικειμένων και την «γενετική πολυτελή» για βελτίωση της ανάλυσης. Άλλα ισχυρά μοντέλα από ανταγωνιστές, όπως τα Bytedance και το Black Forest Labs με δυνατότητες επεξεργασίας εικόνων, έχουν επίσης αναδειχθεί. Η προσέγγιση ανοικτού κώδικα της Alibaba αντιπροσωπεύει μια διαφορετική, πιο ενοχλητική πορεία προς τον ίδιο στόχο.

Αυτή η έκδοση είναι η τελευταία σε μια ταχεία διαδοχή της AI εκτοξεύεται από την Alibaba. Ακολουθεί το ντεμπούτο του μοντέλου συλλογιστικής του QWEN3-thinking και του προχωρημένου μοντέλου γενιάς βίντεο WAN2.2. Με την απελευθέρωση ισχυρών ανοιχτών μοντέλων για συλλογιστική, κωδικοποίηση, βίντεο και τώρα επεξεργασία εικόνων, η Alibaba συναρμολογεί μια πλήρη στοίβα ανάπτυξης AI. Η στρατηγική στοχεύει στην καλλιέργεια μιας παγκόσμιας κοινότητας προγραμματιστών που μπορεί να βασιστεί στην τεχνολογία της, προωθώντας ένα οικοσύστημα που μπορεί ενδεχομένως να καινοτομήσει ταχύτερα από τις κλειστές, ιδιόκτητες πλατφόρμες. Ένας εκπρόσωπος της Alibaba Cloud επιβεβαίωσε αυτή τη μετατόπιση, εξηγώντας”αφού συζητήσαμε με την κοινότητα και αντανακλώντας το θέμα, αποφασίσαμε να εγκαταλείψουμε τον τρόπο υβριδικής σκέψης. Αυτή η εστίαση σε εξειδικευμένα, υψηλής ποιότητας ανοικτά μοντέλα στοχεύει στην οικοδόμηση ενός ολοκληρωμένου οικοσυστήματος που μπορεί να ξεπεράσει τα κλειστά συστήματα που κυριαρχούν στην αγορά.

Categories: IT Info