一種新的聲音AI初創公司正在引起海浪,芝麻AI正好在其中。該公司由Oculus的Brendan Iribe和Ubiquity6的Ankit Kumar共同創立,目前正在與超過2億美元的資金進行談判,與紅杉資本和Spark Capital

是什麼引起了這一興趣的激增?芝麻的答案不是更高的速度或更高的規模。這是現實主義-一種情感上意識到的AI,不僅聽起來很順暢,而且聽起來還活著。 Real

芝麻的會話語音模型(CSM)位於其產品的核心。該模型為數字助理提供了動力,該助手既包含了猶豫,斯托克,音調轉移和步調不一致)的缺陷。這不是一個錯誤;這是故意的。用戶將他們在語音助手的經驗描述為“令人愉悅的人類聽起來”,甚至“不舒服”。

助手不僅模仿了語氣。它在用戶的聲音中解釋了情感信號-在發現壓力時會變成較慢,更舒緩的音調,或者在創意互動中變得嬉戲。助手可以角色扮演,適應角色提示並根據上下文移動舉止。它旨在實時反應對話的形狀和節奏,而不僅僅是說話的單詞。根據上下文信號動態移動其交付。這使AI可以以感覺更情感真實而不是機械預先錄製的方式做出響應。

開源模型,硬件計劃和擁抱的臉型

sesame已發布其

While it currently avoids dependency on large pretrained language models, Sesame has outlined plans to integrate such systems and expand language support to over 20 languages in future iterations.

In parallel, Sesame is developing lightweight AR eyewear designed for everyday use.與視覺上沉浸式耳機不同,該產品專注於音頻,並與其AI助手提供全天互動。 塞薩姆最早的投資者之一安德烈·霍洛維茨(Andreessen Horowitz)的普通合夥人

Anjney Midha在A

投資者的推銷很清楚:構建語音優先計算的操作系統。芝麻並沒有挑戰Openai和Google,而是傾向於表現力,細微差別和持續存在。

行業環境:表達語音AI加熱

芝麻芝麻無法在真空中運行。 Big Tech在富有表現力的語音上快速融合。 OpenAI的高級語音模式於3月下旬推出了網絡,引入了更好的轉彎和延遲減少。

它避免在停頓期間中斷用戶,並開始調整個性特徵以創造更具交互性的體驗。該功能仍然在高級層的後面蓋好,儘管OpenAI在2025年2月擴展了訪問權限,以限制有限制的用戶。

Google的Chirp 3型號,集成到頂點AI中,但提供了跨31種語言的即時自定義語音工具和表達性音調控制。它強調了個人品牌,呼叫中心支持和本地化-與芝麻對情感真實性的關注形成對比。 CHIRP 3還突出了道德挑戰,尤其是在語音克隆和數據同意周圍,這也可能浮出水面。同時,其他AI項目(例如Elon Musk的Xai的“無鏈” Grok模式)正在以更極端的方向探索表達性的語音。

情緒智力,風險和現實世界的摩擦

隨著技術的改善,涉及欺騙和誤解。芝麻的助手並沒有模仿真實的人,但其現實主義在人機互動中卻有模糊。 

這種現實主義也提出了設計和性能權衡。實時運行情感響應的模型,尤其是在可穿戴設備上,帶有高計算成本。處理自然對話在設備上需要力量籌碼和低延遲的體系結構-芝麻尚未公開詳細介紹。

該公司對現實主義的強調可能會造成電池壽命或諸如眼鏡之類的硬件形式的熱量限制。據報導,在開源版本,雄心勃勃的硬件集成以及越過數十億美元商標的估值之間,該初創公司不僅在AI上發出索賠,而且還對與一個人交談的感覺。