Permulaan suara AI ElevenLabs hari ini melancarkan model Scribe V2 dan Scribe V2 Realtime Ucapan-ke-teks yang direka untuk aplikasi secara langsung, interaktif. Transkripsi masa nyata dan menyediakan kelajuan terkemuka industri dengan latensi ultra-rendah kira-kira 150 milisaat sambil mengekalkan ketepatan yang tinggi

Menurut syarikat yang berpangkalan di London Scribe v2 Realtime membolehkan lebih banyak ejen AI perbualan semulajadi, pembantu mesyuarat, dan keterangan masa nyata. Kini boleh didapati melalui API, alat baru ini bertujuan untuk memberikan ketepatan peringkat manusia di seluruh 90 bahasa.

Standard baru untuk transkripsi masa nyata

yang direka khusus untuk persekitaran yang hidup, interaktif, scribe v2 realtime menangani hambatan kritikal dalam suara ai: kelajuan.

Keupayaan sedemikian adalah penting untuk aplikasi di mana tindak balas segera tidak boleh dirunding. Ciri yang unik yang menyumbang kepada kelajuan ini adalah”latensi negatif,”di mana model meramalkan perkataan dan tanda baca seterusnya, mengurangkan kelewatan yang dirasakan, halaman produk , Scribe v2 Realtime Outperforms beberapa pesaing utama dalam penanda aras dalaman Hasil penanda aras Fleurs (sumber: ElevenLabs)

meneruskan trend prestasi untuk syarikat, sebelum ini Platform ElevenLabs Ejen , yang membolehkan pemaju segera menggunakan ejen yang dikuasakan oleh enjin transkripsi yang lebih cepat. Ketua Pegawai Eksekutif Mati Staniszewski telah menyatakan,”Suara adalah antara muka masa depan dan kami sedang membina untuk memastikan bahawa Elevenlabs terus menjadi suara teknologi.”API-FIRST

Bagi pemaju yang membina gelombang aplikasi kuasa suara seterusnya, pendekatan API-First model memudahkan integrasi. ElevenLabs telah membuat Scribe V2 Realtime yang tersedia melalui API yang sedia ada, memastikan ia dapat diakses oleh pangkalan pengguna yang luas.

ElevenLabs juga menjelaskan model penetapan harga, mengesahkan bahawa penggunaan akan dibilkan terhadap kuota setiap jam pelan langganan yang sedia ada. Ini mengelakkan memperkenalkan tahap harga baru yang kompleks untuk teknologi terkini, seperti yang terperinci dalam dokumentasi API. Pengesanan Aktiviti Suara (VAD) membantu menguruskan aliran audio dengan cekap dengan menapis keheningan, mengurangkan kos pemprosesan. Mod pengekalan sifar untuk mengendalikan beban kerja sensitif juga tersedia,

Membangun pada asas pertumbuhan pesat

Pelancaran produknya adalah langkah terbaru dari sebuah syarikat yang mengalami pertumbuhan letupan. Hanya dua bulan yang lalu, ElevenLabs mengumumkan tawaran tender yang menggandakan penilaiannya kepada $ 6.6 bilion. Berita itu datang kerana ia melepasi $ 200 juta dalam pendapatan berulang tahunan, seperti yang dilaporkan pada bulan September.

Pendakian pesatnya adalah luar biasa. Ditubuhkan pada tahun 2022 oleh jurutera bekas Google dan Palantir, syarikat itu berkembang dari pusingan pra-benih $ 2 juta pada awal tahun 2023 kepada status berbilion-bilion dolar di bawah tiga tahun, mengukur pasukannya dan operasi pada kadar yang lepuh, Sejarah . Dengan menyediakan enjin transkripsi berprestasi tinggi untuk melengkapkan model sintesis suara yang digunakan secara meluas, syarikat itu meletakkan dirinya sendiri untuk menangkap bahagian yang lebih besar dari pasaran pembangunan AI suara akhir-ke-akhir.

Categories: IT Info