Το OpenAI ενισχύει τις δυνατότητές του Voice AI, ξεκινώντας επίσημα το API σε πραγματικό χρόνο για προγραμματιστές παγκοσμίως την Πέμπτη. Το κεντρικό κομμάτι της απελευθέρωσης είναι το GPT-Realtime, ένα νέο μοντέλο ομιλίας σε ομιλία που υπόσχεται πιο φυσικές, εκφραστικές συνομιλίες με 20% χαμηλότερο κόστος. Αυτές περιλαμβάνουν υποστήριξη για εισόδους εικόνας, ενσωμάτωση τηλεφωνικών κλήσεων μέσω SIP και εξορθολογισμένες συνδέσεις δεδομένων χρησιμοποιώντας το πρωτόκολλο περιβάλλοντος μοντέλου (MCP). src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

Το OpenAi ισχυρίζεται ότι είναι το Οι πιο προηγμένες, παραγωγή-έτοιμο φωνητικό μοντέλο ακόμα . Σημείωσε το 82,8% στην αξιολόγηση του ήχου του Big Bench για τη συλλογιστική, ένα σημαντικό άλμα από το 65,6% του προηγούμενου μοντέλου. Αυτό του επιτρέπει να ερμηνεύσει καλύτερα μη λεκτικά σημάδια όπως το γέλιο, να αλλάξει τις γλώσσες μεσαία φράση και να χειριστεί με ακρίβεια αλφαριθμητικές αλληλουχίες. Το μοντέλο βελτίωσε τη βαθμολογία του στο σημείο αναφοράς ήχου MultiChallenge από 20,6% σε 30,5%, επιτρέποντάς του να είναι πιο αξιόπιστη να τηρούν συγκεκριμένες προτροπές προγραμματιστών, όπως η ανάγνωση ενός νόμιμου αποκήρυξη κατά λέξη σε μια κλήση υποστήριξης. Εδώ, η ακρίβεια που καλύπτει τη λειτουργία του GPT-Realtime στο συγκρότημα αναφοράς του Complexfunch αυξήθηκε σε 66,5% από 49,7%. Αυτό εξασφαλίζει ότι το μοντέλο καλεί τις σωστές λειτουργίες με τα σωστά επιχειρήματα πιο σταθερά. Μπορεί να ακολουθήσει τις λεπτές οδηγίες, όπως”να μιλήσει γρήγορα και επαγγελματικά”ή”να μιλούν ενσυναισθητικά σε μια γαλλική προφορά”, για να δημιουργήσουν μια πιο προσαρμοσμένη εμπειρία. Η ενημέρωση του OpenAI είναι μια άμεση προσπάθεια δημιουργίας πιο ελκυστικών και λιγότερο ρομποτικών εμπειριών χρήστη. Έχει μετακομίσει από το δημόσιο beta που ξεκίνησε τον Οκτώβριο του 2024, φέρνοντας μαζί του μια σειρά από ισχυρές νέες δυνατότητες σχεδιασμένες για εφαρμογές πραγματικού κόσμου. Η OpenAi σημειώνει ότι η ανατροφοδότηση από χιλιάδες προγραμματιστές κατά τη διάρκεια της βήτα βοήθησε στη διαμόρφωση αυτών των βελτιώσεων που είναι έτοιμες για παραγωγή. διακομιστές. Αυτό το ανοιχτό πρότυπο απλοποιεί τον τρόπο με τον οποίο τα μοντέλα AI συνδέονται με εξωτερικά δεδομένα. Οι προγραμματιστές μπορούν τώρα να μεταβιβάσουν τη διεύθυνση url ενός απομακρυσμένου διακομιστή MCP στο sevent ρύθμισης , επιτρέποντας στο API να χειρίζεται αυτόματα τις κλήσεις εργαλείων χωρίς να χρειάζονται χειροκίνητη ενσωμάτωση. Το κρίσιμο βήμα για την οικοδόμηση ικανών επιχειρηματιών, ενώ δίνει προτεραιότητα στα δεδομένα χρήστη και την ιδιωτική ζωή. Το σύστημα αντιμετωπίζει εικόνες όπως ένα στιγμιότυπο που προστίθεται στη συνομιλία, όχι μια ζωντανή ροή βίντεο, εξασφαλίζοντας ότι οι προγραμματιστές διατηρούν τον έλεγχο του τι βλέπει το μοντέλο. Αυτό ξεκλειδώνει τις περιπτώσεις χρησιμοποιεί περιπτώσεις όπως ζητώντας από έναν πράκτορα να περιγράψει μια φωτογραφία ή να διαβάσει κείμενο από ένα στιγμιότυπο οθόνης. Η Zillow, η οποία απέκτησε πρόωρη πρόσβαση, χρησιμοποιεί το API για να τροφοδοτήσει την αναζήτηση στο σπίτι της επόμενης γενιάς. Ο επικεφαλής AI της εταιρείας, Josh Weisberg, ανέφερε ότι”παρουσιάζει ισχυρότερη συλλογιστική και πιο φυσική ομιλία… επιτρέποντάς του να χειριστεί σύνθετα, πολλαπλά βήματα, όπως η LIFESTYLE DIASES…”, επισημαίνοντας τις δυνατότητες του για πολύπλοκες αλληλεπιδράσεις πελατών. Οι αντίπαλοι προωθούν επιθετικά τις δικές τους τεχνολογίες φωνής. Τον Μάιο, ο Anthropic έκανε μια σημαντική είσοδο με την κυκλοφορία ενός τρόπου φωνής για το CLAUDE AI. Πιο πρόσφατα, η Meta κλιμάκωση του πολέμου των ταλέντων αποκτώντας φωνητική εκκίνηση Playai για αναφερόμενο 45 εκατομμύρια δολάρια τον Ιούλιο για να ενισχύσει τον βοηθό του AI και τα έξυπνα γυαλιά. Η γαλλική εκκίνηση Mistral κυκλοφόρησε τα μοντέλα voxtral τον Ιούλιο, με στόχο να υποβαθμίσει τα ιδιόκτητα συστήματα με μια επιτρεπτή άδεια Apache 2.0 και μια υπόσχεση υπερσύγχρονων επιδόσεων σε λιγότερο από το ήμισυ της τιμής των ανταγωνιστικών API. Χρησιμοποιεί μια καινοτόμο μέθοδο κατάρτισης βασισμένη σε λεζάντας για μια πιο ολιστική κατανόηση της ομιλίας, της μουσικής και του περιβάλλοντος ήχων, επίσης υπό εμπορική άδεια. Τον Απρίλιο, η Amazon ξεκίνησε το εκφραστικό μοντέλο Nova Sonic σε πραγματικό χρόνο, το οποίο ενσωματώνεται στον βοηθό της Alexa+. Οι συσκευές του οδηγούν, ο Panos Panay, υποσχέθηκε προηγουμένως ότι”όταν χρησιμοποιείτε την Alexa+, θα το αισθανθείτε”, σηματοδοτώντας μια ώθηση για πιο συναισθηματικά συντονισμένες αλληλεπιδράσεις. Η σταθερότητα AI αντιμετωπίζει την επεξεργασία σε συσκευές, ενώ άλλοι όπως το σουσάμι AI πιέζουν τα όρια του ρεαλισμού για να δημιουργήσουν τους”ακουστικά, να κάνουν ένα στρατηγικό παιχνίδι που να διατηρούν τις φυσικές ατέλειες όπως οι παύσεις και οι παθήσεις. Η εταιρεία στοιχηματίζει ότι μια ανώτερη εμπειρία προγραμματιστή θα είναι ο αποφασιστικός παράγοντας σε αυτόν τον κλιμακωτό πόλεμο πλατφόρμας.

Categories: IT Info