Η Microsoft επανέφερε την τελευταία της ενημέρωση στο Bing Image Creator, επιστρέφοντας σε παλαιότερη έκδοση του μοντέλου DALL-E μετά από εκτεταμένα παράπονα χρηστών για μειωμένη ποιότητα εικόνας.
Η ενημέρωση του Δεκεμβρίου 2024 παρουσίασε το PR16, μια νέα επανάληψη του DALL-E 3 του OpenAI, με υποσχέσεις για ταχύτερη απόδοση και βελτιωμένη οπτική πιστότητα. Ωστόσο, τα σχόλια των χρηστών αποκάλυψαν σημαντικά ελαττώματα στα αποτελέσματα του μοντέλου, ωθώντας τη Microsoft να επαναφέρει το προηγούμενο μοντέλο PR13 κατά τη διερεύνηση των προβλημάτων.
Στον πυρήνα του, το DALL-E 3 είναι ένα προηγμένο μοντέλο δημιουργίας εικόνων ικανό να δημιουργεί γραφικά από λεπτομερείς περιγραφές κειμένου. Η ενσωμάτωση του DALL-E 3 από τη Microsoft στο Bing Image Creator επιτρέπει στους χρήστες να δημιουργούν προσαρμοσμένες εικόνες απευθείας μέσα στη διεπαφή αναζήτησης Bing. Το σύστημα περιλαμβάνει επίσης λειτουργίες όπως”ενισχύσεις”, οι οποίες δίνουν προτεραιότητα σε συγκεκριμένα αιτήματα των χρηστών για ταχύτερη επεξεργασία.
Σχετικά: Εμφανίζεται το xAI του Elon Musk Ισχυρό Aurora AI Image Generator
PR16: Μια πολλά υποσχόμενη ενημέρωση που έχασε το σήμα
Όταν η Microsoft ενσωμάτωσε το PR16 στο Bing Image Creator, έδωσε έμφαση στην ταχύτητα και τις οπτικές βελτιώσεις. Ο Jordi Ribas, Εταιρικός Αντιπρόεδρος Αναζήτησης και Τεχνητής Νοημοσύνης της Microsoft, εξήγησε, «η εσωτερική συγκριτική αξιολόγηση διαπίστωσε ότι η ποιότητα του PR16 ήταν λίγο καλύτερη κατά μέσο όρο» από το PR13. Η ενημέρωση ήταν μέρος των προσπαθειών της Microsoft να βελτιώσει το οικοσύστημα AI της ενσωματώνοντας προηγμένες δυνατότητες από το DALL-E 3 του OpenAI.
Παρά αυτούς τους ισχυρισμούς, οι εμπειρίες των χρηστών διέφεραν σημαντικά από τις διαβεβαιώσεις της Microsoft. Σε πλατφόρμες όπως το Reddit και το X (πρώην Twitter), οι χρήστες περιέγραψαν τις εικόνες που δημιουργήθηκαν από το PR16 ως”άψυχες”,”καρτουνίστικες”και χωρίς λεπτομέρειες.
Δεν ξέρω ποιον νομίζετε ότι κοροϊδεύετε με αυτό. Το DALL-E είναι αντικειμενικά χειρότερο από ποτέ μετά από αυτήν την”ενημέρωση”και σας ξεπερνούν άλλες εταιρείες όπως η Google. Είναι απολύτως νύχτα και μέρα συγκρίνοντας την ποιότητα εικόνας τώρα με μόλις πριν από μερικούς μήνες pic.twitter.com/EdSdk7aign
— προς τα έξω (@ ροκυνοξυ) <α href="https://twitter.com/roccynoxy/status/1869562483373158654?ref_src=twsrc%5Etfw">19 Δεκεμβρίου 2024
Συγκεκριμένα παράπονα περιλάμβαναν υπερβολικά φωτισμένες εικόνες, λανθασμένες υφές, και αφύσικες χρωματικές αποχρώσεις, όπως διάχυτες πράσινες αποχρώσεις. Ένας χρήστης του Reddit περιέγραψε την απογοήτευσή του δηλώνοντας ότι το μοντέλο δεν ταιριάζει πλέον με την εμπειρία που είχε στο παρελθόν είχα απολαύσει με το DALL-E.
Τα θέματα με περίπλοκα οπτικά στοιχεία, όπως μοτίβα δαντέλας και πολυεπίπεδα ρούχα, ήταν ιδιαίτερα έντονα. Ένας χρήστης που προσπάθησε να δημιουργήσει έναν χαρακτήρα σε στυλ anime επισήμανε ότι το PR16 απέδωσε εικόνες σε πολύ χαμηλότερη ποιότητα χρησιμοποιώντας την ίδια ακριβώς προτροπή.
Ευρύτερες προκλήσεις απόδοσης με DALL-E 3
Ενώ η Microsoft αντιμετώπισε σημαντική κριτική για την κυκλοφορία του PR16, τα ζητήματα δεν ήταν απομονωμένα στο Bing Image Creator. Από τον Νοέμβριο του 2024, οι χρήστες της ενσωμάτωσης ChatGPT του OpenAI με το DALL-E 3 έχουν αναφέρει παρόμοιες αποτυχίες απόδοσης, συμπεριλαμβανομένων παραμορφώσεων χρωμάτων, εσφαλμένων τοποθετήσεων υφής και ανωμαλιών φωτισμού.
Παρατηρήσεις από το φόρουμ της κοινότητας OpenAI αποκαλύπτουν ότι αυτά τα προβλήματα δεν έχουν τις ρίζες τους στο ίδιο το μοντέλο DALL-E 3 αλλά στα ενδιάμεσα συστήματα που είναι υπεύθυνα για μετάφραση των μηνυμάτων χρήστη σε οδηγίες απόδοσης.
Σχετικά: Το Imagen 3 AI Image Generator της Google είναι πλέον προσβάσιμο στις ΗΠΑ
Σύμφωνα με μια λεπτομερή ανάλυση στο φόρουμ, Τα ζητήματα πιθανότατα οφείλονται σε αστοχίες σε αγωγούς άμεσης ανάλυσης και εντολών. Το σύστημα άμεσης μετάφρασης στο DALL-E PR16 φαίνεται να εισάγει ασάφειες που οδηγούν σε ασυνεπή αποτελέσματα.
Για παράδειγμα, οι προτροπές που αφορούν πολύπλοκα στυλ ρούχων, όπως φορέματα ροκοκό ή γοτθικά σχέδια Lolita, συχνά οδηγούν σε λανθασμένα μοτίβα. λανθασμένες υφές και στιλιστικές αποκλίσεις.
Είναι ενδιαφέρον ότι αυτά τα ζητήματα δεν είναι καθολικά. Πλατφόρμες όπως το Coze.com, που χρησιμοποιούν έναν εναλλακτικό αγωγό ενοποίησης για το DALL-E 3, έχουν αποφύγει σε μεγάλο βαθμό τα ελαττώματα απόδοσης που παρατηρούνται στο Bing Image Creator και στο ChatGPT. Αυτή η απόκλιση υποδηλώνει ότι τα προβλήματα εντοπίζονται στα συγκεκριμένα ενδιάμεσα συστήματα που χρησιμοποιούνται από το OpenAI και τη Microsoft, παρά στο βασικό μοντέλο AI.
Σχετικά: Freepik Mystic Takes on Midjourney, Dall-E στο AI Image Generation
Απάντηση της Microsoft και η επαναφορά
Αναγνώριση των σχολίων των χρηστών, Η Microsoft ξεκίνησε μια επαναφορά στο PR13. Ο Ribas ανακοίνωσε την απόφαση για το X, δηλώνοντας:”Ευχαριστώ και πάλι για τα σχόλια και την υπομονή. Μπορέσαμε να [αναπαράγουμε] ορισμένα από τα ζητήματα που αναφέρθηκαν και σχεδιάζουμε να επιστρέψουμε στο PR13 μέχρι να μπορέσουμε να τα διορθώσουμε. Η διαδικασία ανάπτυξης είναι πολύ αργή, δυστυχώς. Ξεκίνησε πριν από πάνω από μία εβδομάδα και θα χρειαστούν 2-3 ακόμη εβδομάδες για να φτάσει στο 100%.”
Η επαναφορά έχει ήδη ολοκληρωθεί εν μέρει, με τους επαγγελματίες χρήστες και περίπου το 25% των ενισχυμένων αιτημάτων να χρησιμοποιούν τώρα το PR13. Η σταδιακή επαναφορά αντικατοπτρίζει την πολυπλοκότητα της ενημέρωσης συστημάτων τεχνητής νοημοσύνης μεγάλης κλίμακας, ειδικά κατά την αντιμετώπιση βαθιάς ενσωματωμένων αγωγών όπως αυτές του Bing Image Creator.
Οι μάχες της Microsoft με το PR16 απηχούν παρόμοιες προκλήσεις που αντιμετωπίζουν άλλοι τεχνολογικοί γίγαντες στην ανάπτυξη προηγμένων μοντέλων τεχνητής νοημοσύνης, για παράδειγμα, νωρίτερα το 2024, η Google αναγκάστηκε να την αναστείλει Οι δυνατότητες δημιουργίας εικόνων του Gemini chatbot μετά το εργαλείο παρήγαγαν ρατσιστικά προσβλητικά και ιστορικά ανακριβή αποτελέσματα.
Αυτά τα περιστατικά υπογραμμίζουν τις εγγενείς δυσκολίες της ευθυγράμμισης των εξελίξεων της τεχνητής νοημοσύνης με τις προσδοκίες των χρηστών, ειδικά για δημιουργικές εφαρμογές όπως η δημιουργία εικόνων.
Συστήματα AI όπως το DALL-E 3 βασίζονται σε πολλαπλά επίπεδα επεξεργασίας για να ερμηνεύει και εκτελεί τις προτροπές χρήστη. Ενώ οι δυνατότητες του βασικού μοντέλου παραμένουν ισχυρές, τα ελαττώματα στα ενδιάμεσα συστήματα μπορούν να υπονομεύσουν σημαντικά την απόδοση. Η υπόθεση δείχνει ότι ακόμη και μικρές λανθασμένες ευθυγραμμίσεις στην άμεση ανάλυση ή απόδοση των αγωγών μπορούν να οδηγήσουν σε σημαντική δυσαρέσκεια των χρηστών.
Ωστόσο, η κυκλοφορία του PR16 αποκάλυψε συστημικές προκλήσεις στη διατήρηση της συνέπειας Ζητήματα όπως η λανθασμένη τοποθέτηση υφής, τα προβλήματα πιστότητας χρώματος και ο φωτισμός. τα τεχνουργήματα υπογραμμίζουν τη λεπτή ισορροπία μεταξύ της ενίσχυσης της ταχύτητας και της διασφάλισης της ακρίβειας απόδοση. Αυτές οι προκλήσεις επιδεινώνονται από την αυξανόμενη πολυπλοκότητα των μηνυμάτων των χρηστών, τα οποία συχνά συνδυάζουν περίπλοκες περιγραφές στυλ και υλικού.
Ενώ η συγκριτική αξιολόγηση παρέχει πολύτιμες πληροφορίες για την τεχνική απόδοση, οι εφαρμογές του πραγματικού κόσμου συχνά αποκαλύπτουν ζητήματα που οι εσωτερικές δοκιμές δεν μπορούν να προβλέψουν.
Επιπλέον, οι αποκλίσεις μεταξύ πλατφορμών όπως το Coze.com και το Bing Image Creator υποδηλώνουν ότι η βελτίωση των ενδιάμεσων συστημάτων είναι κρίσιμης σημασίας για τη βελτίωση της συνολικής απόδοσης.
Η αντιμετώπιση αυτών των προκλήσεων απαιτεί περισσότερες συλλογικές προσπάθειες μεταξύ προγραμματιστών, ολοκληρωμένων πλατφορμών και τελικών χρηστών για να διασφαλιστεί ότι τα συστήματα τεχνητής νοημοσύνης ανταποκρίνονται τόσο σε τεχνικές όσο και σε αισθητικές προσδοκίες.