亞馬遜的新Nova Sonic語音模型針對具有實時表達能力輸出的語音AI競爭對手

亞馬遜正在用Nova Sonic挑戰語音AI中的現狀，Nova Sonic是一種新的語音到語音模型，不僅解釋了用戶所說的話，還可以解釋他們的說法。 Nova Sonic旨在實時處理聲帶變化，音調和節奏，完全跳過了傳統的語音到文本管道。相反，它會聽和直接在表達性的綜合語音中進行響應，從而使用戶具有類似人類的對話的感覺。

亞馬遜說，Nova Sonic是一種生成性的語音基礎模型，旨在不僅了解人們在說什麼，而且在理想的條件下在200毫秒下索賠200毫秒的績效。亞馬遜還報告說，該模型接受了超過100,000個小時的演講培訓，涵蓋了數百種演講者的風格，年齡和口音。在多語言的LiblisPeech基准上，它在英語，法語，意大利語，德語和西班牙語中達到了4.2％的單詞錯誤率。

就可訪問性而言，Nova Sonic現在可以通過Amazon Bedrock通過Amazon Bedrock進行雙向流動API獲得，從而為開發人員提供了跨音清應用程序的開發人員的實時互動功能。亞馬遜還將該模型定為具有成本效益，並指出它比OpenAi的GPT-4O便宜了約80％。

Nova Sonic的元素已經嵌入了Amazon的重新設計的語音助手Alexa+，該助手於2025年2月推出。Alexa+介紹了內存，多轉變，多轉向對話和智能主持人的功能。亞馬遜設備負責人Panos Panay強調了在發布會上的體驗，他說:“當您使用Alexa+時，您將感覺到。 ”

Alexa+對於非Prime用戶來說，每月的費用為20美元，並且包括在Prime會員資格中。但是，一些有希望的功能，例如通過grubhub訂購外賣或為兒童的故事產生，仍然延遲了。較舊的迴聲設備可能不支持模型的處理要求，從而限制了推出。在內部，助理繼續依靠擬人化的克勞德AI進行語言建模，此前亞馬遜在2024年底進行了40億美元的投資。

開發人員，Nova Sonic通過BedRock的API提供的可用性，在語音響應中引入了實時響應，超越了基於靜態轉錄的語音UIS的重要步驟。它標誌著亞馬遜的意圖是為定制對話系統提供構建塊，而不是釋放一個尺寸適合的代理。

更廣泛的AI大修

nova sonic只是亞馬遜成長的Nova AI EcoSystem的一部分。 2024年12月，亞馬遜介紹了Nova Model家族（Nova Micro，Lite，Pro和Premier），其中跨越了文本，圖像和視頻。 Nova Pro模型在基準中發布了競爭成績，例如GSM8K（數學精度為94.8％），Python代碼生成（89.0％）和多步推理（86.9％）。

可視內容創建視覺內容，Nova Canvas和Nova Reel允許使用圖像和簡短的視頻和Safterib和Safterib和Safteritib以及Safterib和Sautter Atatrib。例如，捲軸目前支持六秒鐘的剪輯，並將對兩分鐘開發序列的未來支持。這些創意工具是為企業使用而設計的，並融合了圍繞合成媒體濫用的問題。

亞馬遜通過Nova Act SDK和Nova.amazon.com擴展了對其模型的公共訪問，開發人員可以直接測試Nova模型。 NOVA ACT啟用了可以在Web瀏覽器內部操作的AI代理的創建-通過視覺上意識到的接口單擊，打字和導航頁面。 Unlike Google’s modular Chain-of-Agents framework, Amazon’s SDK prioritizes developer control over prebuilt coordination logic.

Upcoming Reasoning Model May Close the Loop

To compete at a deeper cognitive level, Amazon is working on a Nova-branded reasoning model set for release in mid-2025.即將到來的模型旨在通過更周到，分析的處理進行快速，實時的對話。 Internally, it’s positioned to rival Claude 3.7 Sonnet, OpenAI’s o3-mini, and Google’s Gemini 2.5 Pro.

This development also marks Amazon’s move to reduce reliance on third-party partners like Anthropic and instead build a vertically integrated AI stack—from its custom Trainium chips to application layers within AWS and Alexa+.如果成功的話，與OpenAi等API-First競爭對手相比，公司可能會更嚴格控制數據流，潛伏期和成本優化。

競爭聲音:OpenAI，XAI和Sesame AI

Amazon的Amazon重新進入AI的聲音AI跨越了Sectorients sectory a sectorient a Sectorient a Sectorient sectorions。 Openai擴大了其高級語音模式的範圍，添加了基於Web的訪問和更新，以減少中斷並允許自然暫停對話。與此同時，微軟在2025年2月為所有用戶提供了更深層的工具。

在實驗性的邊緣上，芝麻AI的實驗性語音助手正在通過模仿人類般的猶豫和色調的毫無疑問，以令人信服地提出界限，以至於有些測試人員如此，以至於某些測試人員描述了它的“ e e eery ynully humans ye”。儘管現實主義令人印象深刻，但它也引起了人們對AI的模仿和情感操縱的道德關注。

相反，Xai的Grok 3語音模式採用了完全不同的路線，使用戶可以啟用褻瀆性，情感上反應的語音助手。該功能以“言論自由”的替代方式銷售，犧牲了護欄和節制，以使高度表現力，有時令人震驚的響應能夠與亞馬遜更具監管的方法形成鮮明的對比。

nova Sonic的目標是使中間場地的表現能力和響應能力-在維持安全特徵和企業級別量表的同時提高表達能力和響應能力。這種平衡能否贏得開發人員和最終用戶的勝利還有待觀察，尤其是隨著對會話AI的期望繼續轉移。

亞馬遜的新Nova Sonic語音模型針對具有實時表達能力輸出的語音AI競爭對手

Published by All Things Windows on April 8, 2025

更廣泛的AI大修

Upcoming Reasoning Model May Close the Loop

IT Info

Arxiv將康奈爾大學服務器交換為Google Cloud的現代化推動

IT Info

Chatgpt的新型號顯示了不可思議的照片地理位置技能，點燃隱私警報

IT Info

在海關規則變更的情況下

亞馬遜的新Nova Sonic語音模型針對具有實時表達能力輸出的語音AI競爭對手

Published by All Things Windows on April 8, 2025

更廣泛的AI大修

Upcoming Reasoning Model May Close the Loop

Related Posts

IT Info

Arxiv將康奈爾大學服務器交換為Google Cloud的現代化推動

IT Info

Chatgpt的新型號顯示了不可思議的照片地理位置技能，點燃隱私警報

IT Info

在海關規則變更的情況下