人工智能語音初創公司 ElevenLabs 今天推出了專為實時交互式應用程序設計的 Scribe v2 和 Scribe v2 實時語音轉文本模型。
Scribe v2 在轉錄音頻方面提供盡可能高的準確性,優先考慮轉錄保真度,例如錄製的內容或精確存檔。
Scribe v2 Realtime 則針對實時轉錄進行了優化,並提供業界領先的速度約 150 毫秒的超低延遲,同時保持高精度
根據總部位於倫敦的公司 Scribe v2 Realtime 的說法,它可以實現更自然的對話式 AI 代理、會議助理和實時字幕。該新工具現已通過其 API 提供,旨在在 90 種語言中提供人類水平的準確性。
此次發布加強了 ElevenLabs 進軍企業市場的力度,為開發人員構建響應式語音驅動體驗提供了關鍵組件。
此舉是在該公司最近估值飆升至 66 億美元之後進行的,這標誌著該公司在競爭激烈的生成式 AI 領域的快速擴張。
實時新標準轉錄
Scribe v2 Realtime 專為實時交互式環境而設計,解決了語音 AI 的關鍵瓶頸:速度。
該公司強調,轉錄延遲低於 150 毫秒,這是實現無縫、類人對話的關鍵性能指標。
[嵌入內容]
這種功能對於立即響應是不可協商的應用程序至關重要。促成這一速度的一個獨特功能是“負延遲”,即模型預測下一個單詞和標點符號,從而進一步減少感知延遲。 據該公司稱。
除了速度之外,ElevenLabs 還吹捧該模型在 90 多種語言上的高精度。根據其產品頁面,Scribe v2 Realtime 在內部基準測試中優於幾個主要競爭對手,包括 Google 的 Gemini Flash 2.5、OpenAI 的 GPT-4o Mini 和 Deepgram 的 Nova 3。
ElevenLabs Scribe v2 Realtime FLEURS 基準測試結果(來源:ElevenLabs)
該公司延續了業績趨勢,之前發布的數據顯示,其第一代 Scribe 模型的字錯誤率低於 OpenAI 產品,建立了競爭記錄。
為下一代會話模型提供動力人工智能
在充斥著轉錄服務的市場中,ElevenLabs 押注於速度和準確性,以佔領構建下一代語音界面的企業細分市場。其主要用例以對話式 AI 為中心,其中低延遲允許語音代理進行更流暢的交互,以進行銷售或支持。
對於最終用戶來說,這意味著對話更少尷尬的停頓,使與自動化系統的交互感覺更自然。
新模型已集成到公司自己的 ElevenLabs Agents 平台中,允許開發人員立即部署由更快的轉錄引擎支持的代理。
這種無縫集成符合公司的長期願景。首席執行官 Mati Staniszewski 表示:“語音是未來的界面,我們正在努力確保 ElevenLabs 繼續成為技術的代言人。”
通過提供實時語音理解的基礎工具,ElevenLabs 旨在成為不斷發展的語音驅動軟件生態系統中不可或缺的一部分。
企業就緒且 API 優先
適合構建下一波語音驅動的開發人員應用程序中,該模型的 API 優先方法簡化了集成。 ElevenLabs 已通過其現有 API 提供 Scribe v2 Realtime,確保廣泛的用戶群可以使用它。
ElevenLabs 還澄清了其定價模型,確認使用量將根據現有訂閱計劃的每小時配額進行計費。這避免了為其最新技術引入複雜的新定價層,如其 API 文檔中詳述。
為了滿足企業客戶的需求,該平台包含一套企業級功能。語音活動檢測 (VAD) 通過過濾靜音來幫助有效管理音頻流,從而降低處理成本。 根據公告,還提供了用於處理敏感工作負載的零保留模式。
此外,遵守 SOC 2 和 GDPR 等標準對於在金融和醫療保健等受監管行業中採用至關重要,從而擴大了該模型的潛在市場。
建立在基礎之上快速增長
其產品的推出是一家正在經歷爆炸性增長的公司的最新舉措。就在兩個月前,ElevenLabs 宣布了一項要約收購,使其估值翻了一番,達到 66 億美元。正如 9 月份報導的那樣,該消息發布之際,該公司的年度經常性收入已超過 2 億美元。
其快速增長令人矚目。該公司由前 Google 和 Palantir 工程師於 2022 年創立,根據公司歷史,在不到三年的時間內從 2023 年初的 200 萬美元種子輪融資發展到數十億美元的規模,以驚人的速度擴展其團隊和運營。
ElevenLabs 一直在擴展其產品。
發布 Scribe v2 Realtime 是深化其企業能力的戰略步驟。通過提供高性能轉錄引擎來補充其廣泛使用的語音合成模型,該公司將在端到端語音人工智能開發市場中佔據更大份額。