新しい種類の音声AIスタートアップが波を作っており、セサミAIはその真ん中にあります。 OculusのBrendan IribeとUbiquity6のAnkit Kumarが共同設立した同社は現在、2億ドルを超える資金調達ラウンドを交渉しています。 href=”https://www.bloomberg.com/news/articles/2025-03-31/brendan-iribe-s-ai-voice-startup-sesame-in-talks-for-sequia-backing”ターゲット=”_ blank”10億-会話型AIで最も注意深く監視されているプレイヤーの1人として会社をアンカーしています。
この関心の急増は何ですか? Sesameの答えは、これ以上速度でもスケールでもありません。それはリアリズムです。滑らかに聞こえるだけでなく、生きているように聞こえる感情的に認識しているAI。 Real
Sesameの会話スピーチモデル(CSM)は、その製品の中核にあります。 MayaとMilesという名前のデジタルアシスタントの動力を供給しているこのモデルは、ためらうこと、stutters、音調のシフト、一貫性のないペーシングなどの不完全性を取り入れています。これはバグではありません。意図的です。ユーザーは、音声アシスタントでの経験を「不気味な人間の響き」、さらには「不快な」と説明しました。
アシスタントはトーンだけではありません。ユーザーの声の感情的なシグナルを解釈します。ストレスが検出されたときに、より遅く、なだめるようなトーンにシフトしたり、創造的な相互作用中に遊び心になったりします。アシスタントは、ロールプレイ、文脈に応じてキャラクタープロンプトに調整し、態度をシフトできます。セサミの公式研究出版物で説明されているように、単に話された言葉ではなく、会話の形とリズムにリアルタイムで反応するように設計されています。コンテキスト信号に基づいて配信をシフトします。これにより、AIは機械的に事前に記述されるのではなく、より感情的に本物のように感じる方法で応答できます。 Github apache 2.0ライセンスの下で、開発者が最小限の制限で構築するための扉を開きます。 1Bパラメーターベースモデルは、 hugging face 。
のホストされたデモを介して直接テストすることもできます。 CSMはテキストデータと一緒にこれらを処理し、文脈的に認識された感情的に調整された音声で応答できるようにします。
現在、大規模な事前に優先言語モデルへの依存性を回避していますが、Sesameはそのようなシステムを統合し、将来の繰り返しで20以上の言語に言語サポートを拡大する計画を概説しています。視覚的に没入型のヘッドセットとは異なり、製品はオーディオに焦点を当てており、AIアシスタントとの終日やり取りを提供します。
セサミの最も初期の投資家の1人であるアンドリーセンホロウィッツのゼネラルパートナーであるアンジーミダは、href=”https://a16z.com/announcement/investing-in-seme-ai/”ターゲット=”_ blank”>ブログ投稿 ebruary nonsame not in sime in sime in sime in sime ines not ines te not ines te not ines not ines not in simple not ines nonsame ARメガネのスクリーン-これまでのオーディオには、AIオーディオの感情的な平坦性が疲れ果てていますが、ARメガネから驚くべきオーディオファーストAIシステムに焦点を当てると、シームレスで直感的なコンピューティングエクスペリエンスを作成できます。資金調達ラウンドは、Sequoia、Spark、Andreessen Horowitzを引き付けるだけではありません。また、マトリックスパートナーが支援者の間で数えられます。同社のリーダーシップは、OculusなどのハードウェアプラットフォームでのIRIBEの経験を、空間コンピューティングとDiscordのコミュニティアーキテクチャにおけるKumarのバックグラウンドと組み合わせています。技術的な深さと現実世界の製品の直観を提供しています。
投資家へのピッチは明確です。 Sesameは、SpeedまたはScaleでOpenaiとGoogleに挑戦するのではなく、表現力、ニュアンス、永続的な存在に寄りかかっています。 Alexaは少なく、より多くのコンパニオンです。
業界のコンテキスト:表現力豊かな声AIは熱くなります
sesameは真空で動作しません。ビッグテクノロジーは、表現力豊かな声で急速に収束しています。 3月下旬にWebに展開されたOpenaiのAdvanced Voiceモードは、ターンテイキングとレイテンシーの削減を改善しました。
ポーズ中にユーザーの中断を避け、よりインタラクティブな体験を作成するために人格特性を微調整し始めました。この機能はプレミアムティアの背後にあるままですが、Openaiは2025年2月にアクセスを拡大し、制限を備えたユーザーを無料で拡張しました。個人的なブランディング、コールセンターのサポート、ローカリゼーションを強調しています。これは、セサミの感情的な真正性に焦点を当てることとは対照的です。 Chirp 3は、特に音声クローンとデータの同意を中心に倫理的な課題を強調しています。これは、同様にセサミで表面化する可能性があります。一方、他のAIプロジェクトは、Elon MuskのXaiの「ヒンジのない」Grokモードのように、より極端な方向に表情豊かなスピーチを探求しています。 Sesameのアシスタントは本物の人々になりすましませんが、そのリアリズムは人間の相互作用において線を曖昧にします。
このリアリズムは、デザインとパフォーマンスのトレードオフももたらします。特にウェアラブルデバイスでは、リアルタイムで感情的に反応するモデルを実行するには、高い計算コストが伴います。自然なダイアログオンデバイスの処理には、パワー効率の高いチップと低遅延アーキテクチャが必要です。これは、セサミがまだ公に詳述していない場合です。
同社のリアリズムに重点を置いていると、ガラスなどのハードウェアフォームファクターのバッテリー寿命または熱制限に負担がかかる可能性があります。
オープンソースリリース、野心的なハードウェア統合、および伝えられるところによると、数十億ドルのマークを越えていると伝えられるように、スタートアップは、AIがどのように聞こえるかだけでなく、1つと話すことがどのように感じるかについての主張を賭けています。