Kecerdasan buatan tidak lagi hanya meningkatkan sintesis suara-itu membuat mesin berbicara seperti orang sungguhan. Model pidato AI terbaru tidak hanya menghasilkan kalimat yang halus dan terdengar alami; Mereka memperkenalkan keraguan, kesalahan pengucapan, dan variasi nada, meniru ketidaksempurnaan yang halus dari pidato manusia.
Beberapa penguji telah menemukan tingkat realisme yang meresahkan ini, karena suara-suara yang dihasilkan AI sekarang tidak dapat dibedakan dari percakapan manusia.
Di antara demonstrasi yang paling mengejutkan dari pergeseran ini adalah singing yang paling baik dari pergeseran ini. artificial speech is evolving.
Unlike traditional digital voices that aim for perfect clarity, Sesame’s model is designed to introduce speech irregularities, making it feel organic and tanpa naskah.
pendekatan hiper-realistis wijen AI
Sesame AI telah mendorong batas-batas pidato sintetis dengan merancang suara yang dihasilkan AI yang melampaui pengkhianatan dengan pengkhianatan, dan tidak ada suasana yang memprioritaskan pengisian. terdengar lebih alami. Ini termasuk penyimpangan pidato halus seperti keraguan, tersandung minor, dan bahkan perubahan nada dan mondar-mandir yang meniru ketidakpastian manusia.
Salah satu inovasi utama wijen AI adalah model pembicaraan percakapan (CSM), sebuah model suara yang mampu melakukan adaptasi percakapan yang ekspresif, yang berarti secara dinamis menyesuaikan nada dan kecepatan berdasarkan input. Hal ini memungkinkan AI untuk merespons dengan cara yang terasa lebih otentik secara emosional daripada pra-naskah secara mekanis.
Sistem ini dirancang untuk mendeteksi jeda dan gangguan secara real time, mensimulasikan cara orang secara alami menyesuaikan pola bicara dalam percakapan tatap muka. href=”https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice”> dibangun pada kerangka kerja pembelajaran mendalam canggih yang dilatih pada dataset besar pidato dunia nyata. Tidak seperti model ucapan tradisional yang mengandalkan sintesis concatenative atau model parametrik statistik, wijen menggunakan adaptasi suara nol-shot berbasis saraf.
Ini berarti sistem dapat menghasilkan suara-suara unik baru yang mempertahankan identitas yang konsisten di berbagai percakapan tanpa pembuatan yang dimasukkan ke dalam pembangkit yang dimasukkan. mengalir. Hal ini membuatnya berbeda dari kebanyakan asisten suara AI saat ini, yang menghasilkan setiap respons secara independen dari pertukaran sebelumnya.
Dengan pendekatan ini, sistem wijen AI dapat mempertahankan konsistensi vokal dalam interaksi yang diperluas, bergeser antara nada santai dan formal yang tergantung pada penelitian juga. Kedalaman suara AI dengan mereplikasi bagaimana manusia mengekspresikan sentimen melalui variasi dalam nada, volume, dan ritme.
demo percakapan yang menunjukkan ekspresi kontekstual (sumber: wijen AI)
Sistem ini sedang diuji untuk aplikasi dalam bahasa yang didukung AI. Dengan beberapa kemampuan multibahasa yang tidak disengaja muncul karena kontaminasi dataset, meskipun belum berkinerja baik dalam bahasa lain.
Model ini juga tidak memanfaatkan model bahasa pra-terlatih, sesuatu yang perusahaan rencanakan untuk diubah. Selama beberapa bulan ke depan, AI Wijen ingin meningkatkan ukuran model, memperluas dukungan bahasa ke 20+ bahasa, dan mengeksplorasi mengintegrasikan model pra-terlatih untuk membangun sistem multimodal yang lebih canggih.
Sementara CSM sudah menghasilkan pidato yang terdengar alam, masih berjuang dengan aliran percakapan-hal-hal seperti pengambilan belokan, jeda, dan macing yang membuat dialog manusia. Apa artinya Anda dapat mengetahuinya dengan Demo Interaktif AI yang dapat dilakukan dengan dua kali lipat dari ini. mereka sendiri, yang akan membutuhkan pembaruan besar dalam pengumpulan data, pelatihan model, dan teknik pasca pemrosesan.
Mode suara canggih Openai memimpin jalan
Jalan menuju pidato AI yang sangat realistis. Menandai langkah pertamanya menuju percakapan yang digerakkan oleh AI interaktif. Namun, baru pada bulan Juli 2024 perusahaan memperkenalkan mode suara canggih dengan respons real-time yang ekspresif.
Peluncuran disertai dengan kontroversi ketika salah satu suara AI, Sky, ditemukan sangat mirip dengan aktris Latence yang ada di PRAGED, yang mengarah ke pemindahan dan pembaruan yang diperbarui pada orang-orang yang meriah. 232 milidetik, membuat percakapan terasa mulus.
Desember 2024 menandai lompatan besar ke depan ketika OpenAI memperkenalkan dukungan video langsung ke dalam mode suara canggih, yang memungkinkan pengguna untuk menampilkan objek ke AI untuk interaksi real-time. Pada bulan Februari 2025, Openai membuat mode suara canggih yang tersedia untuk pengguna tingkat bebas, meskipun dengan keterbatasan-versi lengkapnya tetap terbatas pada pelanggan yang membayar.
Pada saat yang sama, OpenAi memperluas kemampuan suaranya di luar chatgpt sendiri, mengintegrasikan pihalin dan fitur-fitur pemanasan di WhatsApp pada bulan Februari 2025, lebih jauh memperpanjang teknologi AI-nya ke dalam pihal Mainstr. Dalam pidato AI
Dengan suara AI menjadi lebih maju, perusahaan teknologi besar bersaing untuk mendominasi ruang. Microsoft telah menghapus semua pembatasan pada interaksi suara AI di Copilot, membuat asisten suaranya dapat diakses secara bebas oleh pengguna.
Sementara itu, Google Gemini Live telah berjuang untuk mencocokkan kemampuan ucapan alami Openai, dengan umpan balik pengguna awal yang disorot bahwa ia masih terasa robot dibandingkan dengan respons fluida CHATGPT. Daripada berfokus pada hiper-realisme, chatbot Grok-nya menampilkan mode”tidak terputus”, yang memungkinkannya bersumpah, membantah, dan terlibat dalam dialog yang agresif.
Langkah ini memicu perdebatan tentang bagaimana AI harus berperilaku dalam percakapan-apakah itu harus didorong oleh orang-orang yang netral dan
Meningkatnya realisme suara yang dihasilkan AI adalah meningkatkan masalah keamanan Bahwa seiring dengan meningkatnya sintesis suara AI, informasi yang salah dan penipuan politik dapat menjadi lebih sulit untuk ditahan.
Di luar risiko keamanan, ada juga kekhawatiran tentang bagaimana suara AI yang realistis dapat mempengaruhi persepsi dan perilaku pengguna. Penelitian telah menunjukkan bahwa orang lebih cenderung mempercayai suara-suara yang terdengar manusia, yang dapat menyebabkan hubungan emosional yang tidak disengaja dengan AI.
Saat diskusi etik AI berlanjut, beberapa peneliti berpendapat bahwa pidato yang dihasilkan AI harus mencakup penanda buatan AI yang akan membedakannya. Lebih meyakinkan, pengembang menggeser fokus untuk menyempurnakan teknologi lebih lanjut.
Openai diharapkan untuk memperluas mode suara canggih ChatGPT dengan lebih banyak fitur kustomisasi, memberi pengguna kontrol atas aspek-aspek seperti intonasi, mondar-mandir, dan sifat kepribadian.
Sementara ini dapat meningkatkan pengalaman pengguna, itu juga menimbulkan masalah etis baru. Haruskah suara yang dihasilkan AI diizinkan terdengar tidak dapat dibedakan dari orang tertentu? Haruskah mereka dioptimalkan untuk membangkitkan emosi pada pengguna? Industri ini belum menerima batasan yang jelas.
Sementara itu, Microsoft melanjutkan dorongannya ke dalam suara AI dengan kopilotnya, mengintegrasikan interaksi bicara di seluruh ekosistemnya. Google, yang berjuang untuk menutup kesenjangan dengan Openai, sedang mengerjakan perombakan besar Gemini Live untuk membuat pola bicaranya lebih alami.
Perlombaan untuk menyempurnakan percakapan yang dihasilkan AI jauh dari selesai, dan persaingan antara perusahaan teknologi besar diperkirakan akan meningkat seiring dengan matang teknologi.