Η κινεζική τεχνολογική γίγαντα Alibaba έχει κλιμακώσει τον αγώνα γενιάς εικόνων AI, απελευθερώνοντας ένα ισχυρό νέο μοντέλο ανοιχτού κώδικα στις 4 Αυγούστου που υπερέχει σε μία από τις πιο δύσκολες προκλήσεις για το AI: Περιλαμβάνει το κείμενο με ακρίβεια. Εικόνες. Σκοπός του είναι να παρέχει στους προγραμματιστές μια ελεύθερη, ισχυρή εναλλακτική λύση που ενσωματώνει απρόσκοπτα περίπλοκο κείμενο με οπτική δημιουργία, ένα μακροχρόνιο εμπόδιο για γενετικά μοντέλα. Imagery
στον πυρήνα του, Για να ερμηνεύσει τις πολύπλοκες προτροπές των χρηστών, αξιοποιεί ένα παγωμένο μοντέλο qwen2.5-VL Vision-Language ως κωδικοποιητής της κατάστασης, μια επιλογή σχεδιασμού που αξιοποιεί ένα μοντέλο που έχει ήδη επιδείξει την ευθυγράμμιση της γλώσσας και των οπτικών δεδομένων. Το μοντέλο εκπαιδεύτηκε χρησιμοποιώντας μια προσέγγιση”μάθησης προγράμματος σπουδών”, ξεκινώντας από βασική απόδοση μη κειμένου πριν από τη σταδιακή κλιμάκωση για να χειριστεί πολύπλοκες περιγραφές σε επίπεδο παραγράφου. Για να βελτιωθεί περαιτέρω ο χειρισμός των σπάνιων χαρακτήρων και των διαφορετικών γραμματοσειρών, η ομάδα ανέπτυξε έναν αγωγό σύνθεσης δεδομένων πολλαπλών σταδίων για τη δημιουργία εικόνων υψηλής ποιότητας, πλούσιων σε κείμενο. Για να γίνει μια αλλαγή, το σύστημα επεξεργάζεται την εικόνα εισόδου με δύο τρόπους: QWEN2.5-VL εκχυλίσματα υψηλού επιπέδου σημασιολογικά χαρακτηριστικά, ενώ ένας μεταβλητικός αυτοκατασκευαστής (VAE) καταγράφει λεπτομερείς ανακατασκευές χαμηλού επιπέδου, όπως περιγράφεται λεπτομερώς στο Επίσημη τεχνική αναφορά
Η ίδια η VAE ήταν ειδικά προσαρμοσμένη σε ένα σώμα με έγγραφα βαρέων κειμένων, όπως PDFs και αφίσες για να ακονίσει την ανακατασκευή των λεπτών λεπτομερειών και του μικρού κειμένου. Εξαρτάται από αξιολογήσεις με επικεφαλής κειμένου, όπως το LongText Bench και το νέο σημείο αναφοράς της κινεζικής λέξης, ξεπερνούν τα υπάρχοντα μοντέλα από αυτό που οι δημιουργοί του αποκαλούν”σημαντικό περιθώριο”. Αυτή η απόδοση το τοποθετεί ως ένα ισχυρό αμφισβητία ανοιχτού κώδικα σε κορυφαία ιδιόκτητα συστήματα. Το μοντέλο επιδεικνύει ισχυρή απόδοση διασταυρούμενης μνήμης, υποστηρίζοντας ένα ευρύ φάσμα καλλιτεχνικών στυλ. Όπως παρουσιάζεται στο Επίσημη ανακοίνωση , μπορεί να προσαρμοστεί ρευστά σε δημιουργικά σχέδια, παράγοντας τα πάντα από τις φωτορεαλιστικές σκηνές και τις ιμπεριαλιστικές ζωγραφιές σε anime aesthetic ισχυρή, επιτρέποντας τις προηγμένες λειτουργίες που υπερβαίνουν τις απλές προσαρμογές. Η τεχνική αναφορά δείχνει το μοντέλο μεταβιβάσεων στυλ χειρισμού, την εισαγωγή ή την απομάκρυνση αντικειμένων και ακόμη και πολύπλοκη χειραγώγηση ανθρώπινης θέσης. Σε ποιοτικές συγκρίσεις, η Qwen-Image διατηρεί επιτυχώς λεπτές λεπτομέρειες, όπως οι σκέλη των μαλλιών κατά τη διάρκεια των αλλαγών που θέτουν και σωστά συνυπάρχουν λεπτομέρειες για τα εξειδικευμένα μοντέλα υπολογιστών. Η ομάδα QWEN καταδεικνύει ότι το μοντέλο μπορεί να εκτελέσει μια σειρά εργασιών κατανόησης εικόνας μέσω απλών προτροπών επεξεργασίας. Αυτές περιλαμβάνουν την ανίχνευση αντικειμένων, την εκτίμηση σημασιολογικής κατάτμησης, το βάθος και την άκρη (Canny) και τη σύνθεση νέας προβολής. Με τη διαμόρφωση αυτών των καθηκόντων αντίληψης ως μορφές ευφυούς επεξεργασίας εικόνων, η Alibaba γεφυρώνει αποτελεσματικά το χάσμα μεταξύ του AI που βλέπει τον κόσμο και το AI που το δημιουργεί. Είναι η τελευταία κίνηση σε μια σειρά γρήγορων πυρκαγιών των μεγάλων απελευθερώσεων AI από την Alibaba, σηματοδοτώντας μια ολοκληρωμένη στρατηγική για την οικοδόμηση μιας πλήρους σουίτας ανοιχτών εργαλείων για τους προγραμματιστές και κυριαρχούν στην κορυφαία κλάδο του κλάδου με την Google και την Google. Αυτό συνοδεύτηκε από ένα ισχυρό μοντέλο κωδικοποίησης πρακτορείων, QWEN3-Coder. Ένας εκπρόσωπος είπε:”Μετά από να συζητήσουμε με την κοινότητα και να προβληματιστούμε για το θέμα, αποφασίσαμε να εγκαταλείψουμε τη λειτουργία Hybrid Thinking. Αυτή η απελευθέρωση εισήγαγε ένα προχωρημένο μείγμα εξουσιοδότησης (MOE) αρχιτεκτονική για τη βελτίωση της ποιότητας και της αποδοτικότητας του βίντεο. Πριν από λίγες εβδομάδες, μια μελέτη ισχυρίστηκε ότι το παλαιότερο μοντέλο QWEN2.5 της Alibaba είχε”εξαπατήσει”σε μια βασική δοκιμασία μαθηματικών με την απομνημόνευση των απαντήσεων από τα μολυσμένα δεδομένα εκπαίδευσης. Όπως σημείωσε ο στρατηγός της AI Nate Jones,”Τη στιγμή που θέσαμε την κυριαρχία του leaderboard ως στόχο, κινδυνεύουμε να δημιουργήσουμε μοντέλα που υπερέχουν σε ασκήσεις ασκήσεων και φλερτ όταν αντιμετωπίζουμε την πραγματικότητα”. Αυτό το συναίσθημα αντανακλάται από εμπειρογνώμονες όπως η Sara Hooker, επικεφαλής των Cohere Labs, οι οποίοι ισχυρίστηκαν ότι «όταν ένας leaderboard είναι σημαντικός για ένα ολόκληρο οικοσύστημα, τα κίνητρα είναι ευθυγραμμισμένα για να είναι τυχερά παιχνίδια». href=”https://huggingface.co/qwen/qwen-image”target=”_ blank”> real World χρησιμότητα και ανοιχτή καινοτομία
Κλιμακώνει τον ανταγωνισμό και αντικατοπτρίζει ένα στοίχημα ότι ένα ανοιχτό οικοσύστημα θα προωθήσει ταχύτερη καινοτομία και ευρύτερη υιοθεσία.