OpenAI telah melancarkan model-model ke-teks dan teks-ke-ucapan yang dinaik taraf, meningkatkan ketepatan transkripsi dan memperluaskan pilihan penyesuaian untuk suara-suara yang dihasilkan.

Dalam teknologi pertuturan berkuasa AI, dengan Google, Microsoft, dan pemain baru seperti Sesame AI menolak sempadan realisme suara sintetik.

TEXT-TO-TEXT yang lebih baik: Memperbaiki ralat transkripsi dan halusinasi AI

OpenAI’s New sumber: OpenAI

Walaupun OpenAI mendakwa kemas kini ini dengan ketara mengurangkan halusinasi, penilaian bebas akan diperlukan untuk mengesahkan peningkatan ketepatannya. Model transkripsi AI masih berjuang dalam kes-kes kelebihan, terutamanya apabila mengendalikan ucapan bertindih, bunyi latar belakang yang berat, atau bahasa perbualan yang tidak formal. href=”https://platform.openai.com/docs/guides/text-to-speech”target=”_ blank”> model gpt-4o mini tts-to-speech yang baru-baru ini nada halus, pacing, dan penghantaran pertuturan. Interaksi seperti manusia.”

Industri suara AI menjadi semakin kompetitif, dengan kemajuan besar dari pesaing seperti Google dan Microsoft. Model suara HD yang baru CIRP 3 Google membolehkan penyesuaian masa nyata nada.

Salah satu perkembangan yang paling kontroversial datang dari Sesame AI, yang mana-mana yang dihasilkan oleh Ai yang meniru ketidaksempurnaan manusia-seperti yang berlaku. kebimbangan etika yang dibangkitkan terhadap maklumat yang salah dan penipuan yang dihasilkan oleh AI. axios melaporkan Untuk meniru suara dengan hanya beberapa saat audio telah menimbulkan penggera di kalangan pakar keselamatan siber.

Openai sendiri telah menghadapi kritikan berprofil tinggi terhadap etika suara. Pada bulan Mei 2024, syarikat itu mengeluarkan salah satu suara yang dihasilkan oleh AI, Sky, selepas pengguna mencatatkan persamaannya dengan pelakon Scarlett Johansson. Johansson kemudian menyatakan bahawa dia telah”tidak pernah memberikan kebenaran terbuka untuk menggunakan suaranya.”

Kontroversi mencetuskan perbincangan mengenai pengklonan suara AI dan hak harta intelek. Walau bagaimanapun, syarikat itu belum memberikan ketelusan penuh ke atas perlindungan yang tepat yang telah dilaksanakan untuk mengelakkan replikasi suara yang tidak dibenarkan. Syarikat telah mengintegrasikan model-model ini dengan Usaha serupa sedang dijalankan di seluruh industri.