Microsoft は、Azure OpenAI Service との統合向けに特別に設計された、テキスト読み上げ (TTS) アプリケーション向けの 4 つの革新的な AI ニューラル音声を公開しました。これらの音声は、音声ベースのチャットボット、音声アシスタント、会話エージェントを強化するために用意されています。

会話シナリオに最適化された音声

新しく導入された音声には次の名前が付けられています。 en-US-AndrewNeural、en-US-BrianNeural、en-US-EmmaNeural (すべて米国英語)、および zh-CH-YunjieNeural (中国語)。これらの音声は会話のコンテキストに合わせて微調整されており、現在、米国東部、東南アジア、西ヨーロッパの 3 つの地域でパブリック プレビューが利用可能です。マイクロソフトは、これらの音声のサンプルを提供し、既存のニューラル音声と比較して、より自然で滑らかな音声を提供する点での進歩を強調しています。

「…フレンドリーで人生に対して楽観的で、常に他の人を支援し、興味深いことや実用的なことを共有することに熱心です。知識。声の話し方は、お茶を飲みながらの知人との会話に似ており、自然で誇張されていない口調を維持しています。」マイクロソフトのこの声明は、それぞれの声の背後にある人格と口調を強調しています。

声の裏にある技術の進歩

Microsoft は Text-to-Speech (TTS) モデリング技術を強化するための継続的な努力により、AI 音声の品質が大幅に向上しました。DelightfulTTS 2 や MuLanTTS などの最近のプロジェクトは、AI 音声とプロの人間の録音との間の品質ギャップを埋めています。これらのプロジェクトは、より自然でリアルに聞こえる音声を生成する上で極めて重要な役割を果たしてきました。このような技術の進歩は、新しく導入された AI 音声の基礎を形成します。

開発者は、Azure Speech SDK またはREST API。Azure Bot Framework は、これらの新しいニューラル TTS 音声を利用できるインテリジェント ボットを作成する機能も提供します。

Microsoft の広範な製品には、140 以上の言語とロケールにまたがる 400 以上のニューラル音声が含まれています。この膨大な配列により、開発者や企業はユーザーに豊かな会話エクスペリエンスを提供するための豊富な選択肢を得ることができます。

Categories: IT Info