Το Amazon αμφισβητεί το status quo στη φωνή AI με την Nova Sonic, ένα νέο μοντέλο ομιλίας σε ομιλία που ερμηνεύει όχι μόνο αυτό που λένε οι χρήστες, αλλά πώς το λένε. Σχεδιασμένο για να χειριστεί τη φωνητική κλίση, τον τόνο και τον ρυθμό σε πραγματικό χρόνο, η Nova Sonic παραλείπει πλήρως τον παραδοσιακό αγωγό ομιλίας σε κείμενο. Αντίθετα, ακούει και ανταποκρίνεται απευθείας σε εκφραστική συνθετική ομιλία, δίνοντας στους χρήστες την αίσθηση μιας ανθρώπινης συνομιλίας.

Το Amazon λέει ότι η Nova Sonic είναι ένα γενετικό μοντέλο θεμελίωσης ομιλίας που έχει σχεδιαστεί για να καταλαβαίνει όχι μόνο τι λένε οι άνθρωποι, αλλά πώς το λένε και ισχυρίζονται την απόδοση κάτω από 200 χιλιοστά σε ιδανικές συνθήκες. Η Amazon αναφέρει επίσης ότι το μοντέλο εκπαιδεύτηκε σε πάνω από 100.000 ώρες ομιλίας, καλύπτοντας εκατοντάδες στυλ ομιλητών, ηλικίες και τόνους. Σχετικά με το πολυγλωσσικό σημείο αναφοράς Librispeech, πέτυχε ποσοστό σφάλματος λέξεων 4,2% σε αγγλικά, γαλλικά, ιταλικά, γερμανικά και ισπανικά. Η Amazon έχει επίσης διαμορφώσει το μοντέλο ως οικονομικά αποδοτικό, δηλώνοντας ότι είναι περίπου 80% λιγότερο δαπανηρό από το GPT-4O του OpenAi. Η στοίβα Developer

Τα στοιχεία της Nova Sonic είναι ήδη ενσωματωμένα στο Alexa+, ο επανασχεδιασμένος βοηθός φωνής του Amazon, ο οποίος ξεκίνησε τον Φεβρουάριο του 2025. Η Alexa+ εισάγει χαρακτηριστικά όπως μνήμη, συνομιλία πολλαπλών στροφών και έξυπνη ορχηστρία στο σπίτι. Ο Panos Panay, οι συσκευές του Amazon, υπογράμμισαν την εμπειρία κατά τη διάρκεια της εκδήλωσης εκτόξευσης, δηλώνοντας:”Όταν χρησιμοποιείτε την Alexa+, θα το αισθανθείτε.”

Alexa+ κοστίζει 20 δολάρια το μήνα για τους χρήστες που δεν είναι ποινές και περιλαμβάνεται στις πρωταρχικές συμμετοχές. Ωστόσο, ορισμένα υποσχόμενα χαρακτηριστικά, όπως η παραγγελία απόσβεσης μέσω grubhub ή γενιάς ιστορίας για παιδιά, εξακολουθούν να καθυστερούν. Οι παλαιότερες συσκευές Echo ενδέχεται να μην υποστηρίζουν τις απαιτήσεις επεξεργασίας του μοντέλου, περιορίζοντας την ανάπτυξη. Εσωτερικά, ο βοηθός συνεχίζει να βασίζεται στην CLAude AI του Anthropic AI για τη γλωσσική μοντελοποίηση, ακολουθώντας την επένδυση των 4 δισεκατομμυρίων δολαρίων του Amazon στα τέλη του 2024. Σηματοδοτεί την πρόθεση του Amazon να παρέχει τα δομικά στοιχεία για τα προσαρμοσμένα συστήματα συνομιλίας, αντί να απελευθερώσει έναν πράκτορα ενός μεγέθους. Τον Δεκέμβριο του 2024, η Amazon εισήγαγε την οικογένεια Nova Model-Nova Micro, Lite, Pro και Premier-που εκτείνεται σε κείμενο, εικόνα και γενιά βίντεο. Το μοντέλο Nova Pro δημοσίευσε ανταγωνιστικές βαθμολογίες σε σημεία αναφοράς όπως το GSM8K (ακρίβεια 94,8%στα μαθηματικά), η δημιουργία κώδικα Python (89,0%) και η συλλογιστική πολλαπλών σταδίων (86,9%). Ο κύλινδρος, για παράδειγμα, υποστηρίζει επί του παρόντος κλιπ έξι δευτερολέπτων με μελλοντική υποστήριξη για αλληλουχίες δύο λεπτών στην ανάπτυξη. Αυτά τα δημιουργικά εργαλεία έχουν σχεδιαστεί για τη χρήση των επιχειρήσεων και ενσωματώνουν την ελεγκτική δυνατότητα για την αντιμετώπιση των ανησυχιών γύρω από την κατάχρηση συνθετικών μέσων. Η NOVA ACT επιτρέπει τη δημιουργία πράκτορων AI που μπορούν να λειτουργούν μέσα στα προγράμματα περιήγησης ιστού-κάνοντας, πληκτρολογώντας και πλοήγηση σελίδων μέσω μιας διασύνδεσης οπτικά ευαισθητοποίησης. Σε αντίθεση με το πλαίσιο Modular Chain-of-Agents της Google, το SDK της Amazon δίνει προτεραιότητα στον έλεγχο του προγραμματιστή πάνω από την προετοιμασμένη λογική συντονισμού.

Το επερχόμενο μοντέλο συλλογισμού μπορεί να κλείσει το βρόχο

Το επερχόμενο μοντέλο έχει ως στόχο να γεφυρώσει γρήγορη, σε πραγματικό χρόνο συνομιλία με πιο προσεκτική, αναλυτική επεξεργασία. Εσωτερικά, είναι τοποθετημένος να ανταγωνίζεται το Sonnet Claude 3.7 Sonnet, το O3-Mini της OpenAi και την Google Gemini 2.5 Pro. Εάν είναι επιτυχής, θα μπορούσε να δώσει στην εταιρεία αυστηρότερος έλεγχος της ροής δεδομένων, της καθυστέρησης και της βελτιστοποίησης του κόστους σε σύγκριση με τους πρώτους ανταγωνιστές όπως το OpenAi. Η OpenAI έχει διευρύνει την εμβέλεια της προχωρημένης λειτουργίας φωνής του, προσθέτοντας πρόσβαση και ενημερώσεις μέσω διαδικτύου που μειώνουν τις διακοπές και επιτρέπουν φυσικές παύσεις σε συνομιλία. Η Microsoft, εν τω μεταξύ, έκανε τα χαρακτηριστικά φωνής της Copilot και σκέφτονται βαθύτερα εργαλεία δωρεάν για όλους τους χρήστες τον Φεβρουάριο του 2025. Ενώ ο ρεαλισμός ήταν εντυπωσιακός, έθεσε επίσης δεοντολογικές ανησυχίες για την πλαστοπροσωπία και τη συναισθηματική χειραγώγηση του AI. Με την εμπορία ως εναλλακτική λύση”ελευθερίας του λόγου”, το χαρακτηριστικό θυσιάζει τα προστατευτικά μηνύματα και τη μετριοπάθεια για να επιτρέψει την εξαιρετικά εκφραστική, μερικές φορές τις αντιδράσεις-προσφέροντας μια έντονη αντίθεση με την πιο ρυθμιζόμενη προσέγγιση του Αμαζονίου. Είτε αυτή η ισορροπία μπορεί να κερδίσει τόσο τους προγραμματιστές όσο και τους τελικούς χρήστες παραμένει να δούμε, ειδικά καθώς οι προσδοκίες γύρω από τη συνομιλία AI συνεχίζουν να μετατοπίζονται.

Categories: IT Info