亞馬遜正在用Nova Sonic挑戰語音AI中的現狀,Nova Sonic是一種新的語音到語音模型,不僅解釋了用戶所說的話,還可以解釋他們的說法。 Nova Sonic旨在實時處理聲帶變化,音調和節奏,完全跳過了傳統的語音到文本管道。相反,它會聽和直接在表達性的綜合語音中進行響應,從而使用戶具有類似人類的對話的感覺。
亞馬遜說,Nova Sonic是一種生成性的語音基礎模型,旨在不僅了解人們在說什麼,而且在理想的條件下在200毫秒下索賠200毫秒的績效。亞馬遜還報告說,該模型接受了超過100,000個小時的演講培訓,涵蓋了數百種演講者的風格,年齡和口音。在多語言的LiblisPeech基准上,它在英語,法語,意大利語,德語和西班牙語中達到了4.2%的單詞錯誤率。
就可訪問性而言,Nova Sonic現在可以通過Amazon Bedrock通過Amazon Bedrock進行雙向流動API獲得,從而為開發人員提供了跨音清應用程序的開發人員的實時互動功能。亞馬遜還將該模型定為具有成本效益,並指出它比OpenAi的GPT-4O便宜了約80%。
Nova Sonic的元素已經嵌入了Amazon的重新設計的語音助手Alexa+,該助手於2025年2月推出。Alexa+介紹了內存,多轉變,多轉向對話和智能主持人的功能。亞馬遜設備負責人Panos Panay強調了在發布會上的體驗,他說:“當您使用Alexa+時,您將感覺到。 ”
Alexa+對於非Prime用戶來說,每月的費用為20美元,並且包括在Prime會員資格中。但是,一些有希望的功能,例如通過grubhub訂購外賣或為兒童的故事產生,仍然延遲了。較舊的迴聲設備可能不支持模型的處理要求,從而限制了推出。在內部,助理繼續依靠擬人化的克勞德AI進行語言建模,此前亞馬遜在2024年底進行了40億美元的投資。
開發人員,Nova Sonic通過BedRock的API提供的可用性,在語音響應中引入了實時響應,超越了基於靜態轉錄的語音UIS的重要步驟。它標誌著亞馬遜的意圖是為定制對話系統提供構建塊,而不是釋放一個尺寸適合的代理。
更廣泛的AI大修
nova sonic只是亞馬遜成長的Nova AI EcoSystem的一部分。 2024年12月,亞馬遜介紹了Nova Model家族(Nova Micro,Lite,Pro和Premier),其中跨越了文本,圖像和視頻。 Nova Pro模型在基準中發布了競爭成績,例如GSM8K(數學精度為94.8%),Python代碼生成(89.0%)和多步推理(86.9%)。
可視內容創建視覺內容,Nova Canvas和Nova Reel允許使用圖像和簡短的視頻和Safterib和Safterib和Safteritib以及Safterib和Sautter Atatrib。例如,捲軸目前支持六秒鐘的剪輯,並將對兩分鐘開發序列的未來支持。這些創意工具是為企業使用而設計的,並融合了圍繞合成媒體濫用的問題。
亞馬遜通過Nova Act SDK和Nova.amazon.com擴展了對其模型的公共訪問,開發人員可以直接測試Nova模型。 NOVA ACT啟用了可以在Web瀏覽器內部操作的AI代理的創建-通過視覺上意識到的接口單擊,打字和導航頁面。 Unlike Google’s modular Chain-of-Agents framework, Amazon’s SDK prioritizes developer control over prebuilt coordination logic.
Upcoming Reasoning Model May Close the Loop
To compete at a deeper cognitive level, Amazon is working on a Nova-branded reasoning model set for release in mid-2025.即將到來的模型旨在通過更周到,分析的處理進行快速,實時的對話。 Internally, it’s positioned to rival Claude 3.7 Sonnet, OpenAI’s o3-mini, and Google’s Gemini 2.5 Pro.
This development also marks Amazon’s move to reduce reliance on third-party partners like Anthropic and instead build a vertically integrated AI stack—from its custom Trainium chips to application layers within AWS and Alexa+.如果成功的話,與OpenAi等API-First競爭對手相比,公司可能會更嚴格控制數據流,潛伏期和成本優化。
競爭聲音:OpenAI,XAI和Sesame AI
Amazon的Amazon重新進入AI的聲音AI跨越了Sectorients sectory a sectorient a Sectorient a Sectorient sectorions。 Openai擴大了其高級語音模式的範圍,添加了基於Web的訪問和更新,以減少中斷並允許自然暫停對話。與此同時,微軟在2025年2月為所有用戶提供了更深層的工具。
在實驗性的邊緣上,芝麻AI的實驗性語音助手正在通過模仿人類般的猶豫和色調的毫無疑問,以令人信服地提出界限,以至於有些測試人員如此,以至於某些測試人員描述了它的“ e e eery ynully humans ye”。儘管現實主義令人印象深刻,但它也引起了人們對AI的模仿和情感操縱的道德關注。
相反,Xai的Grok 3語音模式採用了完全不同的路線,使用戶可以啟用褻瀆性,情感上反應的語音助手。該功能以“言論自由”的替代方式銷售,犧牲了護欄和節制,以使高度表現力,有時令人震驚的響應能夠與亞馬遜更具監管的方法形成鮮明的對比。
nova Sonic的目標是使中間場地的表現能力和響應能力-在維持安全特徵和企業級別量表的同時提高表達能力和響應能力。這種平衡能否贏得開發人員和最終用戶的勝利還有待觀察,尤其是隨著對會話AI的期望繼續轉移。