Μια νέα φυλή φωνής AI εκκίνηση κάνει κύματα, και το σουσάμι AI είναι ακριβώς στη μέση του. Συνιδρυμένος από τον Ankit Kumar της Oculus”Brendan Iribe και του Ubiquity6, η εταιρεία διαπραγματεύεται επί του παρόντος έναν γύρο χρηματοδότησης που υπερβαίνει τα 200 εκατομμύρια δολάρια, με την Sequoia Capital και το Spark Capital δισεκατομμύρια-αγκυροβολώντας την εταιρεία ως έναν από τους πιο στενά παρακολουθημένους παίκτες στο συνομιλητικό AI.

Τι οδηγεί σε αυτό το κύμα ενδιαφέροντος; Η απάντηση του Sesame δεν είναι περισσότερη ταχύτητα ή περισσότερη κλίμακα. Είναι ρεαλισμός-ένας συναισθηματικά επίγνωση του AI που δεν ακούγεται απλώς ομαλός, αλλά ακούγεται ζωντανός. Real

Το μοντέλο ομιλίας του Sesame (CSM) βρίσκεται στον πυρήνα του προϊόντος του. Η τροφοδοσία των ψηφιακών βοηθών που ονομάζεται Maya και Miles, το μοντέλο αγκαλιάζει τις ατέλειες όπως οι δισταγμοί, οι στροφές, οι μετατοπίσεις και η ασυνεπής βηματοδότηση. Αυτό δεν είναι σφάλμα. Είναι σκόπιμο. Οι χρήστες περιέγραψαν την εμπειρία τους με τον βοηθό φωνής ως”απογοητευτικό”και ακόμη και”άβολα”.

Ο βοηθός δεν μιμείται μόνο τον τόνο. Ερμηνεύει τα συναισθηματικά σήματα στη φωνή του χρήστη-μεταβάλλοντας σε έναν πιο αργό, πιο καταπραϋντικό τόνο όταν ανιχνεύεται το άγχος ή να γίνει παιχνιδιάρικο κατά τη διάρκεια δημιουργικών αλληλεπιδράσεων. Ο βοηθός μπορεί να παίξει ρόλο, να προσαρμόσει τις προτροπές χαρακτήρων και να μετατοπίσει τη συμπεριφορά ανάλογα με το πλαίσιο. Έχει σχεδιαστεί για να αντιδράσει σε πραγματικό χρόνο στο σχήμα και τον ρυθμό μιας συνομιλίας, όχι απλώς τις λέξεις που ομιλούνται. Voice”, το μοντέλο μετατοπίζει δυναμικά την παράδοσή του με βάση τα συμφραζόμενα σήματα. Αυτό επιτρέπει στο AI να ανταποκριθεί με τρόπους που αισθάνονται πιο συναισθηματικά αυθεντικά και όχι μηχανικά προ-scripted. GitHub Κάτω από την επιτρεπτή άδεια Apache 2.0, ανοίγοντας την πόρτα για τους προγραμματιστές να αξιοποιήσουν σε αυτό με ελάχιστους περιορισμούς. Το μοντέλο βάσης παραμέτρων 1B μπορεί επίσης να δοκιμαστεί απευθείας μέσω ενός φιλοξενούμενου demo σε αγκάλιασμα προσώπου

Το CSM επεξεργάζεται αυτά παράλληλα με τα κειμενικά δεδομένα, καθιστώντας την ικανότητα να ανταποκρίνεται με επίγνωση του συμφραζόμενου, συναισθηματικά συντονισμένη ομιλία. Σε αντίθεση με τα οπτικά εντυπωσιακά ακουστικά, το προϊόν επικεντρώνεται στον ήχο και προσφέρει όλη την ημέρα αλληλεπίδραση με τον βοηθό του AI. 

Anjney Midha, γενικός συνεργάτης στο Andreessen Horowitz, ένας από τους πρώτους επενδυτές του Sesame, έγραψε σε αυτό το Φεβρουάριο:”Το Sesame είναι χτισμένο γύρω από το απλό, αλλά δεν είναι η απάντηση ότι δεν είναι στο”Οι οθόνες των γυαλιών AR-είναι στον ήχο. Ο γύρος χρηματοδότησης δεν προσελκύει μόνο Sequoia, Spark και Andreessen Horowitz. Μετράει επίσης τους συνεργάτες της Matrix μεταξύ των υποστηρικτών της. Η ηγεσία της εταιρείας συνδυάζει την εμπειρία της Iribe σε πλατφόρμες υλικού όπως το Oculus με το υπόβαθρο της Kumar στο χωροταξικό υπολογισμό και την κοινοτική αρχιτεκτονική της Discord-που δίνει τεχνικό βάθος και πραγματικό κόσμο. Αντί να προκαλέσει την OpenAI και την Google με ταχύτητα ή κλίμακα, το σουσάμι κλίνει σε εκφραστικότητα, απόχρωση και επίμονη παρουσία. Είναι λιγότερο Alexa, περισσότεροι σύντροφος περιβάλλοντος. Η Big Tech συγκλίνει γρήγορα με την εκφραστική φωνή. Η προηγμένη φωνητική λειτουργία του OpenAI, που κυκλοφόρησε στο διαδίκτυο στα τέλη Μαρτίου, εισήγαγε καλύτερες μειώσεις στροφής και καθυστέρησης. Το χαρακτηριστικό αυτό παραμένει περιφραγμένο πίσω από τα Premium Tiers, αν και η OpenAI επέκτεινε την πρόσβαση τον Φεβρουάριο του 2025 σε δωρεάν χρήστες με περιορισμούς. Τονίζει την προσωπική επωνυμία, την υποστήριξη του τηλεφωνικού κέντρου και τον εντοπισμό-που έρχεται σε αντίθεση με την εστίαση του Sesame στη συναισθηματική αυθεντικότητα. Το ChIRP 3 υπογραμμίζει επίσης τις ηθικές προκλήσεις, ιδιαίτερα γύρω από τη φωνητική κλωνοποίηση και τη συγκατάθεση των δεδομένων, η οποία θα μπορούσε να επιταχύνει και το σουσάμι. Εν τω μεταξύ, άλλα έργα AI-όπως η”Unhinged”Mode Grok από το XAI του Elon Musk-διερευνούν την εκφραστική ομιλία σε πιο ακραίες κατευθύνσεις. Ο βοηθός του Sesame δεν μιμείται πραγματικούς ανθρώπους, αλλά ο ρεαλισμός του θολώνει τις γραμμές στην αλληλεπίδραση ανθρώπινης μηχανής. 

Αυτός ο ρεαλισμός δημιουργεί επίσης συμβιβασμούς σχεδιασμού και απόδοσης. Η εκτέλεση συναισθηματικά ανταποκρινόμενων μοντέλων σε πραγματικό χρόνο, ειδικά σε φορητές συσκευές, έρχεται με υψηλό κόστος υπολογισμού. Η επεξεργασία του φυσικού διαλόγου σε συσκευή απαιτεί αποδοτικές τσιπς και αρχιτεκτονική χαμηλής καθυστέρησης-η επάγγελμα ότι το σουσάμι δεν έχει ακόμη αναλύσει δημοσίως. Μεταξύ των απελευθερώσεων ανοικτού κώδικα, της φιλόδοξης ενσωμάτωσης του υλικού και της αποτίμησης που φέρεται να διασχίζει το σήμα δισεκατομμυρίων δολαρίων, η εκκίνηση επιβάλλει μια αξίωση όχι μόνο για το πώς ακούγεται το AI-αλλά για το πώς αισθάνεται να μιλήσει σε ένα.

Categories: IT Info