breaking🚨:Claudeの音声モードは完全に機能し、Web検索とファイルのアップロードをサポートします。
プッシュツートークとスクロール可能なテキストビューが付属しています。 Claude Mobile App!
*はまだ一般公開されていません pic.twitter.com/lhsxeqthql href=”https://twitter.com/testingcatalog/status/1919003910510961078?ref_src=twsrc%5etfw”=”_ blank”> 2025年5月4日、2025年
Claudeモードは、いくつかの機能を統合します。 4つの音声オプションアプリのインターフェイス内の音声応答とともにソースを引用しました。 This interface displays the conversation history as scrollable, paginated text.
Perhaps most notably, the voice mode https://t.co/npqfvuw6pj pic.twitter.com/dojyp52bxk
– m1(@m1astra)“full-duplex”音声モード llama 4搭載のメタAIアプリの場合、このベータ版は限られていましたが、重複する音声に対応するように特別に設計されています。全二重システムは、自然な電話のように、両方の当事者(人間とAI)が同時に話すことを許可しようとします。
人類のアプローチは、一部のライバルと比較してマルチモーダル入力でも異なります。 Claudeユーザーは議論のためにPDFや画像などの静的ファイルをアップロードできますが、GoogleのGemini Liveは3月に機能を獲得し、ライブスマートフォンカメラフィードと画面コンテンツのリアルタイム分析を可能にします。 Openaiは、以前に2024年12月にChatGPTの音声モードにライブビデオサポートを追加していました。 OpenAIは、2月に高度な音声モード(能力の低いGPT-4O MINIモデルを使用)のフリーティアユーザーに限定された毎日のプレビューを提供し始め、サブスクライバーを支払うための完全なGPT-4Oモデルを介して無制限のアクセスを予約しました。 この階層化された戦略は、同じ月に副操縦士の音声機能を完全に無料にしたマイクロソフトとは鋭く対照的です。音声からスピーチモデルのモデルの目的は、音声入力を音声出力に直接変換し、潜在的にレイテンシを削減し、従来の音声からスピーチへのパイプラインと比較してより多くのボーカルニュアンスをキャプチャすることを目的としています。 href=”https://cloud.google.com/text-topeech/docs/chirp3-instant-custom-voice”ターゲット=”_ blank”>”instant custom Voice”音声複製の同意に関する倫理的質問を引き起こす機能。 XaiのGrok 3 Voice Mode、2025年2月にX Premium+購読者向けに発売され、宣誓、in辱、および明示的なチャットを許可する「無ヒング」オプションが含まれています。詐欺の音声クローニング、AIの声が人工マーカーを保持すべきかどうかについての議論を促します。 Openai自体は、女優Scarlett Johanssonとの類似性が認識されているため、2024年5月に音声オプションを撤回しなければならなかったときに倫理的乱流に遭遇しました。