Meta, σε συνεργασία με ερευνητές στο Πανεπιστήμιο του Waterloo, εισήγαγε ένα σύστημα AI που παράγει πλήρως κινούμενα, συγχρονισμένα χαρακτήρες χωρίς να απαιτεί κάμερα, εικόνες αναφοράς ή”Capture Motion”. Το”κινηματογραφικό χαρακτήρα κινηματογράφου”, κατασκευάζει ολόκληρες σκηνές-φαινομενικές εκφράσεις, χειρονομίες και διάλογο στροφής-από μόνο μια φωνητική εγγραφή και ένα σενάριο. Το μοντέλο εισήχθη σε ένα ερευνητικό χαρτί που δημοσιεύτηκε στις 30 Μαρτίου. Το μοντέλο διαθέτει μια ενότητα γνωστή ως προσοχή παραθύρου ομιλίας-video, η οποία εξασφαλίζει τον συγχρονισμό μεταξύ ήχου και κινούμενης εικόνας ευθυγραμμίζοντας τα βασικά καρέ σε ρυθμό ομιλίας. Χρησιμοποιεί επίσης μια κοινή στρατηγική κατάρτισης ομιλίας για να συλλάβει το συγκίνηση και το περιβάλλον χαρακτήρων σε πολλαπλά ηχεία σε μια σκηνή. Η υποστήριξη πολλαπλών χαρακτήρων του επιτρέπει τις συνομιλίες πίσω και πίσω, όπου ο χρόνος και η χειρονομία κάθε χαρακτήρα ενημερώνονται με τη λογική λήψης. Για να αξιολογήσει την απόδοσή της, η ομάδα ανέπτυξε το Mocha Bench, την ακρίβεια του Sync-C, το μοντέλο ξεπερνά τις προηγούμενες μεθόδους όπως το Emo και το Hallo-3 σε μετρήσεις όπως το Sync-C (Sync Sync) Το Mocha ** δημιουργεί χαρακτήρες απευθείας από το κείμενο και την ομιλία ** χωρίς να βασίζεται σε οποιαδήποτε βοηθητικά σήματα. Εδώ είναι ένα πιο κινηματογραφικό demo. pic.twitter.com/mnfvhrsjba

-cong wei (@congwei1230) 1 Απριλίου, 2025

Όπου τα μοντέλα όπως το Omnihuman-1 της ByteDance χρησιμοποιούν μια εικόνα αναφοράς, τα δεδομένα και τον ήχο για να δημιουργήσουν κινούμενα σχέδια, η Mocha παραλείπει τις οπτικές εισόδους εντελώς. Το Omnihuman-1, που ξεκίνησε στις 4 Φεβρουαρίου, εφαρμόζει ένα μετασχηματιστή διάχυσης και το σύστημα κινούμενων εικόνων με καθοδήγηση. Το σύστημα εκπαιδεύτηκε σε πάνω από 19.000 ώρες βίντεο και εφαρμόζει καθοδήγηση χωρίς ταξινομητή για τη βελτίωση του ρεαλισμού και της ποικιλομορφίας. Διαχειρίζεται τόσο το σώμα όσο και την κίνηση του προσώπου χρησιμοποιώντας μόνο ομιλία και κλιματισμό κειμένου, χωρίς εξωτερικές οπτικές άγκυρες. Αυτός ο σχεδιασμός χωρίς αναφορά αφαιρεί την ανάγκη για σύνθετες ρυθμίσεις κάμερας ή λεπτομερή σενάριο κίνησης, προσφέροντας στους δημιουργούς μια εξορθολογισμένη διαδρομή για τη συνθετική αφήγηση. Το μοντέλο διαθέτει επίσης μη αυτόματη αποκωδικοποίηση, βελτιώνοντας την αποτελεσματικότητα προβλέποντας παράλληλα πλαίσια πλήρους κίνησης αντί για ένα βήμα κάθε φορά. Αυτό αφήνει ερωτήματα σχετικά με την ικανότητα γενίκευσης, αν και τα δείκτες αναφοράς απόδοσης υποδηλώνουν αποτελέσματα υψηλής ποιότητας ακόμη και με αόρατα δεδομένα. Τον Οκτώβριο του 2024, ο Runway κυκλοφόρησε το Act-One, ένα χαρακτηριστικό που επιτρέπει στους χρήστες να καταγράφουν τις δικές τους εκφράσεις του προσώπου χρησιμοποιώντας ένα smartphone και στη συνέχεια να χαρτογραφήσουν αυτές τις παραστάσεις σε κινούμενους χαρακτήρες. Αυτό παρακάμπτει την παραδοσιακή σύλληψη κίνησης και ενσωματώνεται στα μοντέλα παραγωγής βίντεο του Runway. Το ACT-One υποστηρίζει μια ποικιλία στυλ κινούμενων σχεδίων και επιτρέπει στους δημιουργούς να κινούνται μικρο-εκφράσεις, κινήσεις των ματιών και συναισθηματικές λεπτές αποχρώσεις χωρίς επαγγελματικά εργαλεία. Ωστόσο, υποθέτει ότι ο χρήστης είναι πρόθυμος να εκτελέσει τη σκηνή. Το Mocha δεν απαιτεί απόδοση. Δημιουργεί έκφραση και κίνηση από το κείμενο μόνο. ​​

Αυτή η διάκριση έχει σημασία. Τα εργαλεία του διαδρόμου βελτιστοποιούνται για δημιουργικό έλεγχο και ρεαλισμό που έχουν ρίζες σε φυσικές εισόδους. Η Mocha αυτοματοποιεί την απόδοση, δημιουργώντας χαρακτήρες που μπορούν να ενεργούν σενάρια ανεξάρτητα. Είναι ιδιαίτερα κατάλληλο για περιεχόμενο αφηγηματικής βαρύτητας, όπως τα βίντεο εξήγησης, οι ψηφιακές σκηνές διαλόγου και η φωνητική αφήγηση όπου οι ρυθμίσεις της κάμερας είναι μη πρακτικές. Το GEN-4 υποστηρίζει την προτροπή σε επίπεδο σκηνής, τις δυναμικές διαδρομές κάμερας, τον έλεγχο φωτισμού και την ανατροφοδότηση σε πραγματικό χρόνο για οπτικές επεξεργασίες. Αυτά τα χαρακτηριστικά επιτρέπουν στους δημιουργούς να κατασκευάζουν σκηνές με περισσότερη ακρίβεια, αλλά αυξάνουν επίσης τις απαιτήσεις υλικού για την απόδοση υψηλής ανάλυσης.

Το Gen-4 εξομαλύνει τον τρόπο με τον οποίο οι χρήστες συντονίζουν διαφορετικά εξαρτήματα σκηνής”και συγχωνεύει τα εργαλεία πριν από το Act-One σε μια ενιαία ροή εργασίας. Δημιουργία χαμηλής τάσης. Το μοντέλο βίντεο ανοιχτού κώδικα που έχει σχεδιαστεί για να αυξήσει την προσβασιμότητα για προγραμματιστές και μικρότερα στούντιο.

Mocha διακρίνεται εστιάζοντας στην απόδοση και το διάλογο. Αντί να κατασκευάζουν περιβάλλοντα ή κινηματογραφικό βερνίκι, επικεντρώνεται στη συμπεριφορά χαρακτήρων, την παράδοση και τη συναισθηματική έκφραση-όλα από ένα σενάριο και φωνή. Τον Σεπτέμβριο του 2024, η εταιρεία Εισαγάγετε ένα εργαλείο AI Dubbing Το σύστημα διατηρεί τον συγχρονισμό της κίνησης φωνής και των χειλιών σε όλες τις γλώσσες.

Meta διερευνά επίσης την ενσωμάτωση των προσώπων που παράγονται από το AI στις κοινωνικές του πλατφόρμες. Τα εικονικά προφίλ Tese θα μπορούσαν να δημοσιεύσουν περιεχόμενο, να αλληλεπιδρούν με τους χρήστες και να προσομοιώσουν τη δραστηριότητα των επιρροών. Η ιδέα είναι να συμπληρώσουμε πλατφόρμες με χαρακτήρες που οδηγούν στο AI που θολώνουν τη γραμμή μεταξύ ψυχαγωγίας και εμπλοκής των χρηστών. Εν τω μεταξύ, η ηγεσία μετατοπίζεται.