Microsoft telah melancarkan empat suara neural AI yang inovatif untuk aplikasi teks ke pertuturan (TTS), yang direka khusus untuk penyepaduan dengan Perkhidmatan Azure OpenAI. Suara ini disediakan untuk meningkatkan chatbot berasaskan pertuturan, pembantu suara dan ejen perbualan.

Suara Dioptimumkan untuk Senario Perbualan

Suara yang baru diperkenalkan dinamakan en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (semua dalam bahasa Inggeris AS) dan zh-CH-YunjieNeural (Bahasa Cina). Suara ini telah diperhalusi untuk konteks perbualan dan kini tersedia untuk pratonton awam di tiga wilayah: AS Timur, Asia Tenggara dan Eropah Barat. Microsoft telah menyediakan sampel suara ini, menyerlahkan kemajuan mereka dalam menyampaikan pertuturan yang lebih semula jadi dan lancar berbanding dengan suara saraf sedia ada.

“…mesra, dan optimis tentang kehidupan, sentiasa bersemangat untuk membantu orang lain dan berkongsi yang menarik atau praktikal pengetahuan. Gaya pertuturan suara itu menyerupai perbualan dengan seorang kenalan sambil minum teh, mengekalkan nada semula jadi dan tidak dibesar-besarkan.”Kenyataan daripada Microsoft ini menekankan persona dan nada di sebalik setiap suara.

Kemajuan Teknologi Di Sebalik Suara

Usaha berterusan Microsoft untuk meningkatkan teknik pemodelan Text-to-Speech (TTS) telah membawa kepada peningkatan ketara dalam kualiti suara AI. Projek terbaharu seperti DelightfulTTS 2 dan MuLanTTS telah merapatkan jurang kualiti antara suara AI dan rakaman manusia profesional. Projek ini telah memainkan peranan penting dalam menghasilkan suara yang terdengar lebih semula jadi dan realistik. Kemajuan teknologi sedemikian membentuk asas untuk suara AI yang baru diperkenalkan.

Pembangun boleh menyepadukan suara ini dengan lancar ke dalam aplikasi mereka menggunakan Azure Speech SDK atau API REST. Rangka Kerja Bot Azure juga menawarkan keupayaan untuk menghasilkan bot pintar yang boleh menggunakan suara TTS saraf baharu ini.

Tawaran meluas Microsoft termasuk lebih 400 suara saraf, merangkumi lebih daripada 140 bahasa dan tempat. Tatasusunan yang luas ini memastikan pembangun dan perniagaan mempunyai banyak pilihan untuk memberikan pengalaman perbualan yang diperkaya kepada pengguna mereka.

Categories: IT Info