AI 音声スタートアップの イレブンラボズは本日、ライブのインタラクティブ アプリケーション向けに設計された Scribe v2 および Scribe v2 リアルタイム音声テキスト変換モデルを発表しました。
Scribe v2 は、録音されたコンテンツや正確なアーカイブなどの文字起こしの忠実度を優先し、音声の文字起こしにおいて可能な限り最高の精度を実現します。
一方、Scribe v2 Realtime は、ライブでリアルタイムの文字起こしに最適化されており、業界をリードする速度を提供します。高精度を維持しながら約 150 ミリ秒の超低レイテンシー
ロンドンに本拠を置く企業 Scribe v2 Realtime によると、より自然な会話型 AI エージェント、会議アシスタント、およびリアルタイムのキャプションが可能になります。 API 経由で利用できるようになったこの新しいツールは、90 の言語にわたって人間レベルの精度を実現することを目指しています。
このリリースは、応答性の高い音声によるエクスペリエンスを構築する開発者に重要なコンポーネントを提供する、イレブンラボのエンタープライズ市場への取り組みを強化します。
この動きは、同社の最近の評価額が 66 億ドルに急上昇したことに続くもので、競争の激しい生成 AI 分野での同社の急速な拡大を示しています。
リアルタイムの新しい標準文字起こし
ライブのインタラクティブ環境向けに特別に設計された Scribe v2 Realtime は、音声 AI の重大なボトルネックである速度に対処します。
同社は、シームレスで人間のような会話を実現するための主要なパフォーマンス指標である 150 ミリ秒未満の文字起こし遅延を強調しています。
[埋め込みコンテンツ]
このような機能は、即時応答が交渉の余地のないアプリケーションにとって非常に重要です。 同社によれば、この速度に貢献する独自の機能は「ネガティブ レイテンシー」であり、モデルが次の単語と句読点を予測し、知覚される遅延をさらに軽減します。
イレブンラボは、速度だけでなく、90 以上の言語にわたるモデルの精度の高さを宣伝しています。 製品ページによると、Scribe v2 Realtime は、Google の Gemini Flash 2.5、OpenAI の GPT-4o Mini、Deepgram の Nova 3 などの内部ベンチマークでいくつかの主要な競合他社を上回っています。
イレブンラボの Scribe v2 リアルタイム FLEURS ベンチマーク結果 (出典:イレブンラボ)
同社の業績傾向は継続しており、以前に公開データで、同社の第一世代 Scribe モデルの単語誤り率が OpenAI の製品よりも低く、競争力のある実績を確立していることを示しました。
次世代の会話型 AI
文字起こしサービスがひしめく市場において、イレブンラボは、次世代の音声インターフェイスを構築するエンタープライズ セグメントを獲得するために、速度と精度に賭けています。その主なユースケースは会話型 AI に集中しており、低遅延により販売やサポートの音声エージェントでよりスムーズな対話が可能になります。
エンドユーザーにとっては、これにより、ぎこちない中断が少なくなり、自動システムとの対話がより自然に感じられるようになります。
新しいモデルは、すでに同社独自の イレブンラボ エージェントに統合されています。
このシームレスな統合は、会社の長期的なビジョンと一致しています。 CEO の Mati Staniszewski は次のように述べています。「音声は未来のインターフェースであり、イレブンラボがテクノロジーの代弁者であり続けることを保証するために私たちは構築しています。」
リアルタイムの音声理解のための基礎ツールを提供することで、イレブンラボは、成長する音声を活用したソフトウェア エコシステムの不可欠な部分になることを目指しています。
エンタープライズ対応かつ API ファースト
次の波を構築する開発者向け音声を利用したアプリケーションでは、このモデルの API ファーストのアプローチにより統合が簡素化されます。イレブンラボは、既存の API を通じて Scribe v2 リアルタイムを利用できるようにし、幅広いユーザー ベースがアクセスできるようにしました。
イレブンラボはまた、料金モデルを明確にし、使用量が既存のサブスクリプション プランの時間単位の割り当てに対して請求されることを確認しました。これにより、API ドキュメントで詳しく説明されているように、最新テクノロジーに対する複雑な新しい価格帯の導入を回避できます。
企業クライアントのニーズを満たすために、プラットフォームにはエンタープライズ グレードの機能スイートが含まれています。 Voice Activity Detection (VAD) は、無音部分をフィルターで除去することでオーディオ ストリームを効率的に管理し、処理コストを削減します。 発表によると、機密性の高いワークロードを処理するためのゼロ保持モードも利用できます。
さらに、SOC 2 や GDPR などの標準への準拠は、金融やヘルスケアなどの規制業界での採用に不可欠であり、モデルの対象市場が広がります。
基盤急速な成長の基盤
その製品発売は、爆発的な成長を遂げている企業の最新の動きです。わずか 2 か月前、イレブンラボは評価額を 66 億ドルに倍増する公開買い付けを発表しました。このニュースは、9 月に報告されたように、年間経常収益が 2 億ドルを超えたときに発表されました。
その急速な上昇には注目に値します。元 Google と Palantir のエンジニアによって 2022 年に設立された同社は、社史によると、2023 年初頭の 200 万ドルのプレシードラウンドから 3 年足らずで数十億ドル規模の地位にまで成長し、チームと運営を猛烈なペースで拡大しました。
elevenLabs は、テキスト読み上げツールから、物議を醸しているが法的に慎重な AI 音楽分野への参入まで、一貫してその製品を拡大してきました。
Scribe v2 Realtime のリリースは、同社のエンタープライズ機能を深化させる戦略的なステップです。同社は、広く使用されている音声合成モデルを補完する高性能文字起こしエンジンを提供することで、エンドツーエンドの音声 AI 開発市場でより大きなシェアを獲得できる立場にあります。