Amazonは、ユーザーの言うことだけでなく、彼らの言うことを解釈する新しいスピーチからスピーチのモデルであるNova Sonicを使用して、Voice AIの現状に挑戦しています。ノバソニックは、声の変曲、トーン、ケイデンスをリアルタイムで処理するように設計されており、伝統的なスピーチツーテキストパイプラインを完全にスキップします。代わりに、表現力豊かな合成スピーチで直接対応し、ユーザーに人間のような会話の感覚を与えます。アマゾンはまた、モデルが100,000時間以上のスピーチでトレーニングされ、何百ものスピーカースタイル、年齢、アクセントをカバーしていると報告しています。多言語のLibrispeechベンチマークでは、英語、フランス語、イタリア語、ドイツ語、スペイン語で4.2%のワードエラー率を達成しました。

アクセシビリティに関して、Nova SonicはAmazon Bedrockを介した双方向ストリーミングAPIを通じて利用可能になり、開発者が音声対応アプリケーション全体でリアルタイムのインタラクション機能を提供します。また、Amazonはモデルを費用対効果として組み立てており、OpenaiのGPT-4oよりも約80%安価であると述べています。開発者スタック

Nova Sonicの要素は、2025年2月に発売されたAmazonの再設計された音声アシスタントであるAlexa+にすでに組み込まれています。Alexa+は、メモリ、マルチターン会話、スマートホームオーケストレーションなどの機能を紹介します。 AmazonのデバイスリードであるPanos Panayは、起動イベント中のエクスペリエンスを強調し、「Alexa+を使用すると感じるでしょう。」

Alexa+は、非プライムユーザーに月額20ドルかかり、プライムメンバーシップに含まれています。ただし、Grubhub経由のテイクアウトや子供向けのストーリージェネレーションなど、いくつかの約束された機能はまだ遅れています。古いエコーデバイスは、モデルの処理要件をサポートせず、ロールアウトを制限する場合があります。内部的には、アシスタントは、2024年後半にAmazonの40億ドルの投資を受けて、言語モデリングのために人類のクロードAIに依存し続けています。 Amazonの意図は、ワンサイズのALLエージェントをリリースするのではなく、カスタム会話システムにビルディングブロックを提供することを目的としています。 2024年12月、Amazonは、テキスト、画像、ビデオ生成のスパンであるNova Micro、Lite、Pro、PremierのNovaモデルファミリーを紹介しました。 NOVA Proモデルは、GSM8K(数学の94.8%の精度)、Pythonコード生成(89.0%)、マルチステップ推論(86.9%)などのベンチマークで競合スコアを記録しました。たとえば、Reelは現在、開発中の2分間のシーケンスを将来サポートする6秒のクリップをサポートしています。これらのクリエイティブツールは、エンタープライズの使用と合成メディアの誤用に関する懸念に対処するための監査可能性を組み込んで設計されています。 NOVA ACTにより、視覚的に認識されているインターフェイスを介してページをクリック、タイピング、ナビゲートすることができるAIエージェントの作成を可能にします。 Googleのモジュラーチェーンオブエージェントフレームワークとは異なり、AmazonのSDKは、事前に構築された調整ロジックに対する開発者の制御を優先します。今後のモデルは、より思慮深い分析処理で高速でリアルタイムの会話を橋渡しすることを目的としています。内部的には、Claude 3.7 Sonnet、OpenaiのO3-Mini、およびGoogleのGemini 2.5 Pro。

のライバルに位置付けられています。この開発は、Amazonの人類のようなサードパーティパートナーへの依存を減らし、代わりに垂直に統合されたAIスタックを構築します。成功した場合、OpenaiのようなAPIファーストの競合他社と比較して、データフロー、遅延、コストの最適化を企業により緊密に制御できます。 Openaiは、高度な音声モードのリーチを拡大し、中断を減らし、会話で自然な一時停止を可能にするWebベースのアクセスと更新を追加しました。一方、Microsoftは、2025年2月にすべてのユーザーにとってカピローの音声機能を作成し、すべてのユーザーにとってより深いツールを無料で考えました。リアリズムは印象的でしたが、AIのなりすましと感情的な操作に関する倫理的懸念も提起しました。

逆に、XaiのGrok 3音声モードは根本的に異なるルートを取り、ユーザーが冒とく的で感情的に反応的な音声アシスタントを可能にします。 「言論の自由」の代替品として販売されているこの機能は、ガードレールと節度を犠牲にして、アマゾンのより規制されたアプローチとのまったく対照的に、非常に表現力豊かな、時には耳障りな応答を可能にします。そのバランスが開発者とエンドユーザーの両方に勝つことができるかどうかは、特に会話型AIに関する期待が変化し続けているため、まだ不明です。

Categories: IT Info