Η Google ξεκίνησε το”Storybook”, ένα νέο χαρακτηριστικό στην εφαρμογή Gemini που επιτρέπει στους χρήστες να δημιουργούν εξατομικευμένες, εικονογραφημένες ιστορίες χρησιμοποιώντας απλές υποδείξεις κειμένου. Κυκλοφόρησε παγκοσμίως στις 8 Μαΐου, το εργαλείο δημιουργεί βιβλία 10 σελίδων με έθιμο και ανάγνωση αφηγήσεων.
Η λειτουργία στοχεύει να κάνει την δημιουργία περιεχομένου που λειτουργεί με AI πιο προσιτή και προσωπική. Μπορεί ακόμη και να αντλήσει έμπνευση από προσωπικές φωτογραφίες ή σχέδια για παιδιά. Ωστόσο, οι πρώτες δοκιμές υπογραμμίζουν την τρέχουσα αναξιοπιστία της τεχνολογίας, με τους χρήστες να αναφέρουν διασκεδαστικά παράξενα αποτελέσματα.
Αυτή η απρόβλεπτη αποκαλύπτει το χάσμα μεταξύ του γυαλισμένου μάρκετινγκ AI και της πραγματικής απόδοσης. Ένας πρώτος χρήστης, Emma Roth του The Verge, σημείωσε:”Βρήκα μια εικόνα που έβαλε ένα ανθρώπινο χέρι σε ένα από τα ψάρια”. Καταγράφοντας τέλεια την συχνά-Σουρεαλική έξοδο των σημερινών γενετικών μοντέλων
href=”https://blog.google/products/gemini/storybooks/”target=”_ blank”> γίνονται στιγμιαίες συγγραφείς. εξατομίκευση. Πέρα από το μόνο κείμενο, οι χρήστες μπορούν να ανεβάσουν τις δικές τους φωτογραφίες ή ακόμα και το σχέδιο ενός παιδιού, ζητώντας από τον Δίδυμο να φέρει την οπτική ιδέα στη ζωή σε μια νέα αφήγηση. Αυτό μετατρέπει το χαρακτηριστικό από μια απλή γεννήτρια σε ένα εργαλείο για τη μετατροπή των προσωπικών αναμνήσεων και των δημιουργιών σε μοναδικές, κοινόχρηστες ιστορίες. Οι χρήστες μπορούν να ζητήσουν γραφικά που μιμούνται τα πάντα, από την τέχνη και τα κόμικς των εικονοστοιχείων μέχρι το πηλό, το βελονάκι και ακόμη και τα βιβλία χρωματισμού. Αυτή η ευελιξία είναι διαθέσιμη σε περισσότερες από 45 γλώσσες, καθιστώντας το ένα παγκοσμίως προσβάσιμο δημιουργικό εργαλείο. Η εταιρεία προτείνει να ζητήσει όπως η δημιουργία μιας ιστορίας για να εξηγήσει το ηλιακό σύστημα σε ένα πεντάχρονο ή να διδάξει ένα μάθημα για την καλοσύνη κάνοντας τον κύριο χαρακτήρα το αγαπημένο ζώο ενός παιδιού. Αυτό το βιβλίο δεν είναι μια απλή καινοτομία, αλλά ως πρακτική, εξατομικευμένη μηχανή περιεχομένου για οικογένειες και εκπαιδευτικούς.
Αυτή η εκτόξευση αποτελεί βασικό μέρος της ευρύτερης στρατηγικής της Google για την ενσωμάτωση του γενετικού AI βαθιά σε ολόκληρο το οικοσύστημα του προϊόντος, κινώντας τις απλές λειτουργίες συνομιλίας. Η προσέγγιση αντικατοπτρίζει άλλες πρόσφατες δημιουργικές ενημερώσεις από την εταιρεία, οι οποίες επικεντρώνονται στη μετατροπή των στατικών εισροών χρήστη σε δυναμικές, συναρπαστικές μορφές μέσων. Αυτό το μοτίβο-από το κείμενο στον ήχο στο βίντεο-δείχνει μια σαφή στρατηγική ώθηση για να κάνει τις πλατφόρμες εργαλείων AI της Google για τη σύνθεση και την ανταλλαγή γνώσεων, όχι μόνο για την ανάκτηση του. Δημιουργία εικόνων AI. Η τεχνολογία, για όλη της τη δύναμη, εξακολουθεί να αγωνίζεται με λογική συνοχή, μονιμότητα αντικειμένων και κατανόηση συμφραζομένων. Αυτό οδηγεί σε αυτό που συνήθως ονομάζονται”ai ψευδαισθήσεις”ή εικαστικά αντικείμενα, τα οποία δεν είναι απλώς σφάλματα, αλλά συμπτώματα της θεμελιώδους ακτινοβολίας της τεχνολογίας. Το Verge έθεσε γρήγορα αυτές τις σουρεαλιστικές τάσεις. Μια ιστορία που δημιουργήθηκε χαρακτήρισε ένα ψάρι που είχε ανεξήγητα καλλιεργήσει ένα ανθρώπινο χέρι. Ένας άλλος έκανε μια σελίδα που αφορούσε σάλτσα σπαγγέτι να μοιάζει με σκηνή εγκλήματος γελοιογραφίας, ενώ το ένα τρίτο απεικόνιζε μια μητέρα και γιο που παρακολουθούσε μια τηλεόραση που αντιμετώπιζε λάθος τρόπο. Αυτά δεν είναι λεπτές σφάλματα, αλλά οι φαινομενικές λογικές αποτυχίες. Σε μια σκηνή, ένας χαρακτήρας εμφανίζεται κάνοντας”TAP, TAP, TAP”θόρυβοι”ενώ κρατάτε ένα κλειδί, μια ανόητη δράση που υπογραμμίζει την αβαθή αντίληψη του AI για το πώς χρησιμοποιούνται τα αντικείμενα στον πραγματικό κόσμο. Αυτές οι ασυνέπειες καταδεικνύουν ότι ακόμη και προσεκτικά επιμελημένα παραδείγματα δεν μπορούν πάντα να κρύψουν τα ελαττώματα του συστήματος.
Αυτά τα ζητήματα εκτείνονται πέρα από την απλή δημιουργία αντικειμένων σε ευρύτερες εννοιολογικές αποτυχίες. Οι δοκιμαστές σημείωσαν ότι τα σχέδια χαρακτήρων συχνά άλλαξαν ασυνεπώς από τη μία σελίδα στην άλλη. Επιπλέον, όταν του ζητήθηκε να δημιουργήσει μια ιστορία βασισμένη σε ένα μεταφορτωμένο σχέδιο μιας γάτας, το AI απέτυχε να αναπαράγει πιστά το καλλιτεχνικό όραμα του χρήστη, αντί να παράγει τη δική του γενική ερμηνεία. Είναι το σύγχρονο ισοδύναμο των πρώιμων μοντέλων AI που αγωνίζονται να κάνουν τα ανθρώπινα χέρια σωστά, συχνά προσθέτοντας επιπλέον δάχτυλα. Η δυσκολία στη δημιουργία ευανάγνωστου κειμένου είναι ένα άλλο επίμονο εμπόδιο, τόσο σημαντική που οι εταιρείες όπως η Alibaba κατασκευάζουν εξειδικευμένα μοντέλα μόνο για να το λύσουν. Το γενετικό AI είναι ένα πιθανοτικό σύστημα, εξαιρετικά εξειδικευμένο στην πρόβλεψη του επόμενου πιο πιθανού εικονοστοιχείου ή λέξης που βασίζεται σε τεράστια δεδομένα εκπαίδευσης. Δεν είναι ένας αισθανόμενος καλλιτέχνης με μια αληθινή κατανόηση της φυσικής, της ανατομίας ή της αφηγηματικής λογικής και οι δημιουργίες της θα συνεχίσουν να αντικατοπτρίζουν αυτή την περίεργη, εκπληκτική κοιλάδα μέχρι τα υποκείμενα μοντέλα να εξελιχθούν περαιτέρω. Ενώ η Google στοχεύει στην ευρεία έκκληση των καταναλωτών, οι αντίπαλοι σκαλίζουν τις θέσεις με την επίλυση συγκεκριμένων, δύσκολων προβλημάτων που έχουν μολύνει από καιρό την παραγωγή εικόνων AI. Αυτό στοχεύει σε μια αυξανόμενη επιθυμία μεταξύ των δημιουργών για πιο λεπτές και πιστευτές εξόδους.
Ομοίως, το μοντέλο QWEN-Image της Alibaba αντιμετωπίζει ένα άλλο σημαντικό εμπόδιο: με ακρίβεια την ευανάγνωστη κείμενο μέσα σε εικόνες. Αυτή η δυνατότητα είναι ζωτικής σημασίας για περιπτώσεις επαγγελματικής χρήσης, όπως η δημιουργία αφισών ή υλικών μάρκετινγκ, ένας τομέας όπου τα περισσότερα μοντέλα αποτυγχάνουν. Το νέο σημείο αναφοράς για την επιτυχία μετατοπίζεται από την απλή δημιουργία μιας εικόνας για τη δημιουργία της * δεξιάς εικόνας με ακρίβεια, αξιοπιστία και καλλιτεχνικό έλεγχο. Τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση αυτών των ισχυρών μοντέλων αποτελούν το αντικείμενο έντονης συζήτησης και διαφορών υψηλού βαθμού, δημιουργώντας σημαντικό κίνδυνο για προγραμματιστές. Όπως δήλωσε ο Γενικός Σύμβουλος της Disney,”η πειρατεία είναι η πειρατεία και το γεγονός ότι γίνεται από μια εταιρεία A.I. δεν το καθιστά λιγότερο παραβιαστικό”. Η υπόθεση αυτή θα μπορούσε να θέσει ένα προηγούμενο για ολόκληρο τον κλάδο.
Αυτή η νομική τριβή επιδεινώνεται από τον αυξανόμενο σκεπτικισμό σχετικά με τον τρόπο αξιολόγησης των μοντέλων AI. Ο αγώνας για την υπεροχή αναφοράς οδήγησε σε κατηγορίες για”διδασκαλία στη δοκιμή”. Ως στρατηγός της AI, Nate Jones, προειδοποίησε:”Τη στιγμή που θέσαμε την κυριαρχία του leaderboard ως στόχο, κινδυνεύουμε να δημιουργήσουμε μοντέλα που υπερέχουν σε ασκήσεις ασκήσεων και φλερτ όταν αντιμετωπίζουμε την πραγματικότητα”. href=”https://www.forbes.com/sites/bernardmarr/2025/08/05/what-is-ai-agent-washing-and-why-is-it-a-nisk-to-business/”target=”_ blank”>”Πλύσιμο,”Δημιουργεί έναν κύκλο διαφημιστικής εκστρατείας που μπορεί να αποκρύψει την πραγματική, βαθμιαία πρόοδο που έχει σημειωθεί. Είναι ισχυρό και δημιουργικό, αλλά ταυτόχρονα αναξιόπιστο και επιρρεπές σε κωμικά σφάλματα. Προβάλλει την τεράστια φιλοδοξία της Google, υπενθυμίζοντας στους χρήστες ότι η ηλικία των άψογων, πραγματικά έξυπνων αφηγητών AI δεν έχει φτάσει ακόμα.