OpenAI melangkah keupayaan AI suara, secara rasmi melancarkan API masa nyata untuk pemaju di seluruh dunia pada hari Khamis. Pusat pelepasan itu adalah GPT-Realtime, model utama ucapan-ke-ucapan yang menjanjikan perbualan yang lebih semula jadi, ekspresif pada kos yang lebih rendah 20%. Ini termasuk sokongan untuk input imej, integrasi panggilan telefon melalui SIP, dan sambungan data yang diselaraskan menggunakan Protokol Konteks Model (MCP). src=”https://winbuzzer.com/wp-content/uploads/2025/08/openai-realtime-api-voice.jpg”>

Tuntutan terbuka ia adalah model suara yang paling maju, siap sedia ada , menyampaikan penambahbaikan utama dalam arahan kompleks berikut, Ia menjaringkan 82.8% pada penilaian audio bangku besar untuk penalaran, lompatan utama dari model 65.6% sebelumnya. Ini membolehkan ia lebih mentafsirkan isyarat bukan lisan seperti ketawa, menukar bahasa pertengahan hukuman, dan mengendalikan urutan alfanumerik dengan tepat.

Arahan-berikut, fungsi kritikal untuk ejen yang boleh dipercayai, juga telah dipertingkatkan. Model ini meningkatkan skornya pada penanda aras audio multichallenge dari 20.6% hingga 30.5%, yang membolehkannya lebih baik mematuhi arahan pemaju tertentu, seperti membaca verbatim penafian undang-undang pada panggilan sokongan. Di sini, ketepatan fungsi GPT-Realtime pada penanda aras ComplexFuncbench meningkat kepada 66.5% daripada 49.7%. Ini memastikan model memanggil fungsi yang betul dengan hujah-hujah yang betul dengan lebih konsisten.

Di luar kecerdasan mentah, model itu dilatih untuk menghasilkan ucapan berkualiti tinggi dengan intonasi, emosi, dan kadar yang lebih seperti manusia. Ia boleh mengikuti arahan halus, seperti”bercakap dengan cepat dan profesional”atau”bercakap secara empati dalam aksen Perancis,”untuk mewujudkan pengalaman yang lebih disesuaikan.

cabaran. Kemas kini Openai adalah percubaan langsung untuk mencipta pengalaman pengguna yang lebih menarik dan kurang robot. Ia telah berpindah dari beta awam yang bermula pada bulan Oktober 2024, membawa ia satu suite keupayaan baru yang kuat yang direka untuk aplikasi dunia nyata. Openai mencatatkan bahawa maklum balas daripada beribu-ribu pemaju semasa beta membantu membentuk penambahbaikan yang siap pengeluaran ini. Pelayan Protokol Konteks Model (MCP). Standard terbuka ini memudahkan bagaimana model AI menyambung ke data luaran. Pemaju kini boleh Lulus url pelayan MCP jauh ke dalam konfigurasi sesi Sumber, langkah kritikal untuk membina ejen perniagaan yang berkebolehan sambil mengutamakan data pengguna dan privasi.

API kini juga menyokong input imej, membolehkan perbualan multimodal di mana ejen boleh menganalisis dan membincangkan apa yang pengguna lihat. Sistem ini merawat imej seperti snapshot yang ditambahkan ke sembang, bukan aliran video langsung, memastikan pemaju mengekalkan kawalan ke atas apa yang dilihat oleh model. Ini membuka kunci menggunakan kes-kes seperti meminta ejen untuk menerangkan foto atau membaca teks dari tangkapan skrin. Zillow, yang mendapat akses awal, menggunakan API untuk menggerakkan carian rumah generasi akan datang. Ketua AI syarikat, Josh Weisberg, melaporkan bahawa”ia memperlihatkan penalaran yang lebih kuat dan ucapan yang lebih semula jadi… membolehkannya mengendalikan permintaan yang kompleks, pelbagai langkah seperti penyenaraian yang menyempitkan dengan keperluan gaya hidup…”menonjolkan potensi untuk interaksi pelanggan yang kompleks. Saingan secara agresif memajukan teknologi suara mereka sendiri. Pada bulan Mei, antropik membuat kemasukan yang ketara dengan melancarkan mod suara untuk Claude AI. Baru-baru ini, Meta meningkatkan perang bakat dengan memperoleh permulaan suara Playaai untuk dilaporkan $ 45 juta pada bulan Julai untuk meningkatkan pembantu AI dan gelas pintar.

Komuniti sumber terbuka juga menimbulkan cabaran yang hebat. Permulaan Perancis Mistral mengeluarkan model voxtralnya pada bulan Julai, yang bertujuan untuk mengurangkan sistem proprietari dengan lesen Apache 2.0 permisif dan janji prestasi canggih di kurang daripada separuh harga API yang bersaing. Ia menggunakan kaedah latihan berasaskan kapsyen yang inovatif untuk pemahaman yang lebih holistik mengenai ucapan, muzik, dan bunyi ambien, juga di bawah lesen mesra komersil.

Malah gergasi teknologi yang ditubuhkan tidak berdiri diam. Pada bulan April, Amazon melancarkan model Nova Sonic yang ekspresif masa nyata, yang sedang diintegrasikan ke dalam pembantu Alexa +nya. Perantinya memimpin, Panos Panay, sebelum ini berjanji bahawa”apabila anda menggunakan Alexa+, anda akan merasakannya,”menandakan dorongan untuk interaksi resonan yang lebih emosional.

Inovasi meluas kepada pemula khusus juga. Kestabilan AI menangani pemprosesan pada peranti, sementara yang lain seperti bijan AI menolak sempadan realisme untuk mewujudkan pembantu yang”bersemangat”yang memanfaatkannya. Syarikat itu bertaruh bahawa pengalaman pemaju unggul akan menjadi faktor penentu dalam perang platform yang semakin meningkat ini.

Categories: IT Info