Η Google κυκλοφορεί ένα ισχυρό νέο μοντέλο επεξεργασίας εικόνων για την εφαρμογή Gemini την Τρίτη. Αναπτύχθηκε από το DeepMind, η ενημέρωση εισάγει προηγμένες λειτουργίες που έχουν σχεδιαστεί για να δίνουν στους χρήστες πιο δημιουργικό έλεγχο και συνέπεια, άμεσα προκλητικές αντιπάλους όπως το OpenAI και το Adobe.
Η αναβάθμιση στοχεύει στην επίλυση ενός από τα πιο επίμονα ελαττώματα: διατηρώντας τις ομοιότητες ενός ατόμου σε όλες τις επεξεργασίες. Οι χρήστες μπορούν τώρα να αλλάξουν τα ρούχα ή τα φόντο χωρίς να παραμορφώσουν τα πρόσωπα, να συνδυάσουν τις φωτογραφίες σε μια ενιαία σκηνή ή να κάνουν επαναληπτικές αλλαγές σε μια ροή συνομιλίας. Το νέο μοντέλο είναι τώρα ενσωματωμένο στην εφαρμογή Gemini για όλους τους χρήστες και είναι επίσης διαθέσιμο στους προγραμματιστές μέσω του Gemini API, του Google AI Studio και του Vertex AI, Σύμφωνα με την επίσημη ανακοίνωση
top-rated model editing . Ο David Sharon, ένας προβάδισμα για τις εφαρμογές Gemini, υπογράμμισε την ενθουσιώδη υποδοχή του, δηλώνοντας ότι”οι άνθρωποι έχουν πάει μπανάνες πάνω από αυτό που ήδη διατηρεί την ταυτότητα-είναι το μοντέλο επεξεργασίας εικόνων στον κόσμο.”Αυτό ασχολείται με ένα κοινό σημείο αποτυχίας για πολλά μοντέλα AI, όπου η επεξεργασία ενός φόντου ή μιας στολή μπορεί να παραμορφώσει με ακρίβεια το πρόσωπο ενός υποκειμένου. Με αυτήν την ενημέρωση, οι χρήστες μπορούν να τοποθετήσουν θέματα σε εντελώς νέα σενάρια-να δοκιμάσουν διαφορετικά ρούχα, να φαντάζουν νέα επαγγέλματα ή ακόμα και να βλέπουν πώς θα εμφανίζονται σε μια άλλη δεκαετία-While-image-editor-Banana”Target=”_ blank”> εξασφαλίζοντας ότι εξακολουθούν να μοιάζουν με τους εαυτούς τους
Πέρα από τη διατήρηση της ομοιότητας, το μοντέλο εισάγει μια σουίτα προηγμένων δημιουργικών επιλογών. Οι χρήστες μπορούν τώρα να συνδυάσουν πολλές φωτογραφίες για να δημιουργήσουν μια ολοκαίνουργια σύνθετη σκηνή. Για παράδειγμα, θα μπορούσε κανείς να τραβήξει μια φωτογραφία του εαυτού τους και σε ένα άλλο από το σκυλί τους για να δημιουργήσει ένα τέλειο πορτρέτο μαζί τους σε ένα γήπεδο μπάσκετ. Ένα άλλο ισχυρό χαρακτηριστικό επιτρέπει την”ανάμειξη σχεδιασμού”, όπου το στυλ μιας εικόνας μπορεί να εφαρμοστεί σε ένα αντικείμενο σε ένα άλλο, όπως η μεταφορά του χρώματος και της υφής των πετάλων λουλουδιών σε ένα ζευγάρι βροχοπτώσεων. Κάποιος θα μπορούσε να ξεκινήσει με ένα κενό δωμάτιο, στη συνέχεια να ζητήσει από τον Δίδυμο να ζωγραφίσει τους τοίχους, να προσθέσει ένα ράφι, να τοποθετήσει έναν καναπέ και τελικά να βάλει ένα χαλί, με το μοντέλο να διατηρεί την ακεραιότητα της σκηνής σε κάθε βήμα. Η Nicole Brichtova, ένας οδηγός προϊόντος στο Google Deepmind, εξήγησε ότι ο στόχος ήταν να ενισχυθεί ο δημιουργικός έλεγχος, σημειώνοντας:”Πραγματικά πιέζουμε την οπτική ποιότητα προς τα εμπρός, καθώς και την ικανότητα του μοντέλου να ακολουθήσει τις οδηγίες”. δημιουργικό ai. Η πίεση εντατικοποιήθηκε σημαντικά αφού η OpenAI ενσωμάτωσε τη γεννήτρια εικόνας GPT-4O απευθείας στο ChatGPT τον Μάρτιο. Αυτή η κίνηση οδήγησε σε μια τεράστια αύξηση της εμπλοκής των χρηστών, που τροφοδοτείται από ιογενή μιμίδια που παρουσίασαν την ισχύ και την προσβασιμότητα του μοντέλου, θέτοντας ένα νέο σημείο αναφοράς για ολοκληρωμένα εργαλεία AI. Η εταιρεία πρόσφατα έβαλε ένα τρίο ισχυρών χαρακτηριστικών που τροφοδοτείται με πυροσβέστης, συμπεριλαμβανομένου του «εναρμόνου» για να ταιριάζει αυτόματα το χρώμα και τον φωτισμό των προστιθέμενων αντικειμένων, «γενετική αναβαθμισμένη» για την ενίσχυση της ανάλυσης και το βελτιωμένο εργαλείο αφαίρεσης. Η Deepa Subramaniam, μια Adobe VP, δήλωσε ότι αυτή η προσέγγιση οδηγείται από την ανατροφοδότηση των χρηστών, εξηγώντας ότι”αυτές οι νέες καινοτομίες προέρχονται από τις συνεχιζόμενες συνομιλίες μας με τη δημιουργική κοινότητα, όπου ακούμε πώς μπορούμε να εξελίσσουμε εργαλεία στο Photoshop για την κατάργηση των φραγμών”. Η προσέγγιση της Google, αντίθετα, στοχεύει σε ένα ευρύτερο καταναλωτικό κοινό απευθείας στην εφαρμογή συνομιλίας της, με στόχο τη μαζική υιοθεσία. Η Meta γύρισε πρόσφατα τη στρατηγική της μετά από εσωτερικές αποτυχίες ανάπτυξης, επιλέγοντας την τεχνολογία αδειών από την Midjourney, ηγέτη σε στυλιζαρισμένες εικόνες AI. Ο επικεφαλής της AI της Meta, Alexandr Wang, πλαισίωσε την κίνηση ως αναγκαιότητα, δηλώνοντας ότι η εταιρεία πρέπει να υιοθετήσει μια”προσέγγιση όλων των απέδρων”για να παραδώσει τα καλύτερα προϊόντα. Οι εξειδικευμένοι παίκτες αναδύονται για να λύσουν συγκεκριμένα, επίμονα προβλήματα. Για παράδειγμα, η ροή του Black Forest Labs.1 Το μοντέλο Krea είναι σχεδιασμένο για να καταπολεμήσει τη γενική”εμφάνιση AI”και να επιτύχει πιο αυθεντικό φωτορεαλισμό. Ομοίως, το μοντέλο qwen-image του Alibaba υπερέχει στην απόδοση ευανάγνωστου κειμένου, ένα σημαντικό εμπόδιο για τα περισσότερα γενετικά συστήματα. Η εταιρεία αντιμετώπισε σημαντική αντίδραση όταν η Gemini στις πρώτες της μέρες παρήγαγε ιστορικά ανακριβείς εικόνες των ανθρώπων, αναγκάζοντάς την να αναστείλει προσωρινά το χαρακτηριστικό. Αυτή η νέα εκτόξευση συνοδεύεται από πιο ισχυρά πρωτόκολλα ασφαλείας. Οι εικόνες θα περιλαμβάνουν τόσο έναν ορατό δείκτη όσο και ένα αόρατο, κρυπτογραφικό συνθετικό υδατογράφημα για να δείξουν σαφώς ότι δημιουργούνται AI. Αυτό έρχεται σε αντίθεση με τις νομικές και ηθικές μάχες που εμπλέκονται στους ανταγωνιστές. Η Midjourney αντιμετωπίζει επί του παρόντος μια δίκη πνευματικών δικαιωμάτων υψηλού προφίλ από τη Disney και Universal για τα δεδομένα της κατάρτισης. Ο γενικός σύμβουλος της Disney, Horacio Gutierrez, έχει πάρει μια σκληρή γραμμή, δηλώνοντας:”Η πειρατεία είναι η πειρατεία και το γεγονός ότι γίνεται από μια εταιρεία A.I. δεν το καθιστά λιγότερο παραβιασμό.”Όπως σημείωσε ο στρατηγός AI Nate Jones,”Τη στιγμή που θέτουμε την κυριαρχία του leaderboard ως στόχο, κινδυνεύουμε να δημιουργήσουμε μοντέλα που υπερέχουν σε ασκήσεις ασκήσεων και να φτιάχνουν την πραγματικότητα. Η κίνηση τοποθετεί το Gemini όχι μόνο ως chatbot, αλλά ως μια ολοκληρωμένη δημιουργική μηχανή στο ταχέως εξελισσόμενο γενετικό τοπίο AI.