Startup suara AI ElevenLabs hari ini meluncurkan model ucapan-ke-teks Scribe v2 dan Scribe v2 Realtime yang dirancang untuk aplikasi langsung dan interaktif.

Scribe v2 memberikan akurasi tertinggi dalam mentranskripsikan audio, memprioritaskan fidelitas transkripsi, seperti konten rekaman atau pengarsipan yang akurat.

Scribe v2 Realtime, sebaliknya, dioptimalkan untuk transkripsi langsung dan real-time dan memberikan kecepatan terdepan di industri dengan sangat rendah latensi sekitar 150 milidetik dengan tetap menjaga akurasi tinggi

Menurut perusahaan yang berbasis di London, Scribe v2 Realtime, memungkinkan agen AI percakapan, asisten rapat, dan teks waktu nyata yang lebih alami. Kini tersedia melalui API-nya, alat baru ini bertujuan untuk memberikan akurasi tingkat manusia dalam 90 bahasa.

Rilis ini memperkuat dorongan ElevenLabs ke pasar perusahaan, memberikan komponen penting bagi pengembang untuk membangun pengalaman responsif yang didukung suara.

Langkah ini mengikuti lonjakan valuasi perusahaan baru-baru ini menjadi $6,6 miliar, menandakan ekspansi pesatnya dalam bidang AI generatif yang kompetitif.

Standar Baru untuk Real-Time Transkripsi

Dirancang khusus untuk lingkungan langsung dan interaktif, Scribe v2 Realtime mengatasi hambatan penting dalam AI suara: kecepatan.

Perusahaan menyoroti latensi transkripsi di bawah 150 milidetik, metrik kinerja utama untuk memungkinkan percakapan yang lancar dan seperti manusia.

[konten tersemat]

Kemampuan seperti itu sangat penting untuk aplikasi di mana respons langsung tidak dapat dinegosiasikan. Fitur unik yang berkontribusi terhadap kecepatan ini adalah “latensi negatif”, yang mana model memprediksi kata dan tanda baca berikutnya, sehingga semakin mengurangi penundaan yang dirasakan, menurut perusahaan.

Di luar kecepatannya, ElevenLabs memuji akurasi tinggi model ini dalam lebih dari 90 bahasa. Menurut halaman produk, Scribe v2 Realtime mengungguli beberapa pesaing utama dalam tolok ukur internal, termasuk Gemini Flash 2.5 dari Google, GPT-4o Mini dari OpenAI, dan Nova 3 dari Deepgram.

Hasil tolok ukur ElevenLabs Scribe v2 Realtime FLEURS (Sumber: ElevenLabs)

Melanjutkan tren kinerja bagi perusahaan, perusahaan ini sebelumnya memublikasikan data yang menunjukkan model Scribe generasi pertama memiliki tingkat kesalahan kata yang lebih rendah dibandingkan penawaran OpenAI, sehingga menciptakan rekam jejak yang kompetitif.

Mendukung Generasi Berikutnya dari AI Percakapan

Di pasar yang dipenuhi dengan layanan transkripsi, ElevenLabs mengandalkan kecepatan dan akurasi untuk menangkap segmen perusahaan yang membangun antarmuka suara generasi berikutnya. Kasus penggunaan utamanya berpusat pada AI percakapan, di mana latensi rendah memungkinkan interaksi yang lebih lancar dalam agen suara untuk penjualan atau dukungan.

Bagi pengguna akhir, hal ini berarti percakapan dengan lebih sedikit jeda canggung, membuat interaksi dengan sistem otomatis terasa lebih alami.

Model baru ini sudah terintegrasi ke dalam Agen ElevenLabs milik perusahaan platform, memungkinkan pengembang untuk segera menerapkan agen yang didukung oleh mesin transkripsi yang lebih cepat.

Integrasi yang lancar ini sejalan dengan visi jangka panjang perusahaan. CEO Mati Staniszewski menyatakan, “suara adalah antarmuka masa depan dan kami membangun untuk memastikan bahwa ElevenLabs terus menjadi suara teknologi.”

Dengan menyediakan alat dasar untuk pemahaman suara secara real-time, ElevenLabs bertujuan untuk menjadi bagian tak terpisahkan dari ekosistem perangkat lunak bertenaga suara yang sedang berkembang.

Siap untuk Perusahaan dan yang Memprioritaskan API

Bagi pengembang yang membangun gelombang berikutnya dari aplikasi bertenaga suara, model ini Pendekatan yang mengutamakan API menyederhanakan integrasi. ElevenLabs telah membuat Scribe v2 Realtime tersedia melalui API yang ada, memastikan bahwa API tersebut dapat diakses oleh basis pengguna yang luas.

ElevenLabs juga mengklarifikasi model harganya, mengonfirmasi bahwa penggunaan akan ditagih berdasarkan kuota per jam dari paket berlangganan yang ada. Hal ini menghindari penerapan tingkat harga baru yang rumit untuk teknologi terbarunya, sebagaimana dijelaskan dalam dokumentasi API-nya.

Untuk memenuhi kebutuhan klien korporat, platform ini menyertakan serangkaian fitur tingkat perusahaan. Deteksi Aktivitas Suara (VAD) membantu mengelola aliran audio secara efisien dengan menyaring keheningan, sehingga mengurangi biaya pemrosesan. Mode tanpa retensi untuk menangani beban kerja sensitif juga tersedia, sesuai pengumuman.

Selain itu, kepatuhan terhadap standar seperti SOC 2 dan GDPR sangat penting untuk diadopsi dalam industri yang diatur seperti keuangan dan layanan kesehatan, sehingga memperluas pasar model yang dapat ditangani.

Membangun berdasarkan Landasan Pertumbuhan Pesat

Peluncuran produknya merupakan langkah terbaru dari perusahaan yang mengalami pertumbuhan eksplosif. Dua bulan lalu, ElevenLabs mengumumkan penawaran tender yang menggandakan valuasinya menjadi $6,6 miliar. Berita ini muncul ketika pendapatan berulang tahunannya melampaui $200 juta, seperti yang dilaporkan pada bulan September.

Peningkatan pesatnya sungguh luar biasa. Didirikan pada tahun 2022 oleh mantan insinyur Google dan Palantir, perusahaan ini berkembang dari tahap awal senilai $2 juta pada awal tahun 2023 menjadi status multi-miliar dolar dalam waktu kurang dari tiga tahun, meningkatkan tim dan operasinya dengan kecepatan tinggi, menurut sejarah perusahaannya.

Dari awal berdirinya Dari alat text-to-speech hingga masuknya mereka yang kontroversial namun hati-hati secara hukum ke dalam ruang musik AI, ElevenLabs secara konsisten memperluas penawarannya.

Meluncurkan Scribe v2 Realtime adalah langkah strategis yang memperdalam kemampuan perusahaannya. Dengan menyediakan mesin transkripsi berperforma tinggi untuk melengkapi model sintesis suara yang banyak digunakan, perusahaan memposisikan dirinya untuk meraih pangsa lebih besar di pasar pengembangan AI suara end-to-end.

Categories: IT Info