Kecerdasan buatan tidak lagi hanya meningkatkan sintesis suara-ia membuat mesin bercakap seperti orang sebenar. Model ucapan AI terkini tidak hanya menjana ayat-ayat yang lancar, semulajadi; Mereka memperkenalkan keraguan, salah laku, dan variasi nada, meniru ketidaksempurnaan yang halus dari ucapan manusia. Bagaimana ucapan buatan berkembang. Tidak diskriminasi. Memperkenalkan ketidaksempurnaan yang menjadikannya lebih semula jadi. Ini termasuk penyelewengan ucapan yang halus seperti ragu-ragu, tersandung kecil, dan juga perubahan dalam padang dan pacing yang meniru ketidakpastian manusia. Ini membolehkan AI untuk bertindak balas dengan cara yang merasakan lebih tulen secara emosi dan bukannya pra-skrip secara mekanik. href=”https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice”> dibina pada rangka kerja pembelajaran yang maju yang dilatih dalam dataset yang luas dalam ucapan dunia nyata. Tidak seperti model ucapan tradisional yang bergantung kepada sintesis concatenative atau model parametrik statistik, bijan menggunakan adaptasi suara sifar berasaskan neural.

Tanggapan berdasarkan aliran perbualan. Ini menjadikannya berbeza daripada pembantu suara AI yang paling terkini, yang menjana setiap tindak balas secara bebas dari pertukaran sebelumnya.

kedalaman suara AI dengan mereplikasi bagaimana manusia menyatakan sentimen melalui variasi dalam padang, kelantangan, dan irama. Data Bahasa Inggeris, dengan beberapa kebolehan berbilang bahasa yang tidak disengajakan muncul kerana pencemaran dataset, walaupun ia tidak berfungsi dengan baik dalam bahasa lain.

Model ini juga tidak mengambil kesempatan daripada model bahasa yang terlatih, sesuatu yang dirancang oleh syarikat untuk berubah. Dalam beberapa bulan akan datang, Sesame AI ingin meningkatkan saiz model, mengembangkan sokongan bahasa kepada 20+ bahasa, dan meneroka mengintegrasikan model-model yang terlatih untuk membina sistem multimodal yang lebih maju. Apa ini bermakna Anda boleh mengetahui dengan sesam ai yang boleh dibual dengan cabang ini. Dengan sendirinya, yang memerlukan kemas kini utama dalam pengumpulan data, latihan model, dan teknik pasca pemprosesan. menandakan langkah pertama ke arah perbualan yang didorong oleh AI interaktif. Walau bagaimanapun, tidak sampai Julai 2024 bahawa syarikat itu memperkenalkan mod suara maju dengan respons ekspresif, masa nyata. Untuk hanya 232 milisaat, membuat perbualan berasa lancar. 

Disember 2024 menandakan lonjakan utama ke hadapan apabila OpenAI memperkenalkan sokongan video langsung ke mod suara maju, yang membolehkan pengguna menunjukkan objek ke AI untuk interaksi masa nyata. Pada bulan Februari 2025, OpenAI membuat mod suara maju yang tersedia untuk pengguna peringkat bebas, walaupun dengan batasan-versi penuh tetap terhad untuk membayar pelanggan.

AI Ucapan

Dengan suara AI menjadi lebih maju, syarikat teknologi utama bersaing untuk menguasai ruang. Microsoft telah mengeluarkan semua sekatan ke atas interaksi suara AI dalam copilot, menjadikan pembantu suara itu bebas diakses oleh pengguna. Daripada memberi tumpuan kepada hiper-realisme, chatbot Groknya mempunyai mod”tidak disengajakan”, yang membolehkannya bersumpah, berdebat, dan terlibat dalam dialog yang agresif. Terlalu manusia

Realisme yang semakin meningkat dari suara-suara yang dihasilkan AI adalah menimbulkan kebimbangan keselamatan. Pakar memberi amaran bahawa apabila sintesis suara AI bertambah baik, maklumat yang salah dan penipuan politik boleh menjadi lebih sukar untuk memerangi.

Di luar risiko keselamatan, terdapat juga kebimbangan tentang bagaimana suara AI yang realistik dapat mempengaruhi persepsi dan tingkah laku pengguna. Kajian telah menunjukkan bahawa orang lebih cenderung untuk mempercayai suara-suara yang bunyi manusia, yang boleh membawa kepada hubungan emosi yang tidak diingini dengan AI. Suara menjadi lebih meyakinkan, pemaju beralih fokus untuk menyempurnakan teknologi lagi. Sekiranya suara-suara yang dihasilkan Ai dibenarkan untuk berbunyi tidak dapat dibezakan daripada individu tertentu? Sekiranya mereka dioptimumkan untuk membangkitkan emosi pada pengguna? Industri ini masih belum menetap di sempadan yang jelas. Google, yang berjuang untuk menutup jurang dengan Openai, sedang mengusahakan pembaikan utama Gemini hidup untuk membuat corak pertuturan lebih semula jadi.

Categories: IT Info