擬人化的克勞德語音模式接近啟動，網絡搜索和文件上傳的討論

Anthropic appears ready to bring voice conversations to its Claude AI assistant mobile application, with the feature reportedly functional internally and nearing a public debut.即將到來的Claude語音模式信號標誌著人類的轉移到語音驅動的AI相互作用的繁華領域，目前由OpenAI，Google，Meta和其他人提供的產品填充。

最初的實現採用了受控的對話方法。與努力尋求完全流動性，類似於人類的系統的系統不同，克勞德的語音模式是按推向對話的操作，就像在啟動高級語音模式之前的chatgpt一樣。

這意味著用戶可以闡明其查詢或語句，然後手動點擊發送按鈕以使AI流程具有AI流程。這種方法可防止AI削減用戶，但犧牲了中期自發的插入或澄清的能力。早期報告表明，即使有自然的暫停，系統也可以可靠地處理語音輸入，但要求用戶在交互期間保持其設備。

破壞🚨:Claude的語音模式現在正常運行，並支持Web搜索和文件上傳。

它帶有推向對話和可滾動文本視圖。對於Claude移動應用程序！

*這將是一個很大的升級。 *公眾尚無 pic.twitter.com/lhsxeqthsxeqthqthqthqteqt href=“ https://twitter.com/testingcatalog/status/1919003910510961078?ref_src=twsrc%5etfw“ target=“ _ _ black”> 5月4日，5月4日，20255年5月4日，20255 克勞德模式集成了幾個功能。它將提供四個語音選項兩種語音選項兩個被分類為男性，允許Quie Quiere Quie Quie Quiere preceperies Quiere prece
也許最值得注意的是，語音模式支持文件上傳，使用戶能夠提供圖像或PDF文檔，然後通過語音命令直接與AI討論其內容，Google還為Gemini Live開發了一個功能。該功能遵循3月Claude移動應用程序中Web搜索的最新全局可用性。

Anthropic繼續開發其語音模式，添加“ Glassy”，這是最新的Claude App Update中的最新聲音。

我認為這將是最多的聲音。 https://t.co/npqfvuw6pj pic.twitter.com/dojyp52bxk

– m1（@m1astra）

對話型AI競技場

Claude的推銷交互模型將其與競爭對手區分開來，與積極進行更動態的對話流程。 Openai精緻的Chatgpt的高級語音模式可以更好地處理用戶停頓而不會中斷，旨在更平滑的交流。

元，同時，4月的實驗性測試詳細測試 href=”https://ai.meta.com/research/publications/beyond-turn-based-interfaces-synchronous-llms-as-full-duplex-dialogue-agents/” target=”_blank”>“full-duplex”voice mode for its Llama 4-powered Meta AI app, specifically designed to accommodate overlapping speech, though this beta was limited.全載系統試圖允許雙方（人和AI）同時講話，就像一個自然的電話一樣。

塞斯梅AI的2025年3月演示的語音模型如此現實-與某些挑戰有關的挑戰，塞姆·艾斯（Sesame AI）的2025年3月演示是如此現實，這是塞姆AI的2025年3月演示的困難-與某些競爭對手相比，

人類的方法在多模式輸入中也有所不同。儘管Claude用戶可以上傳靜態文件，例如PDF和圖像進行討論，但Google的Gemini Live在3月獲得了功能，可以實時分析實時智能手機攝像機供稿和屏幕上的內容。 Openai先前曾在2024年12月在Chatgpt的語音模式中添加了實時視頻支持。

語音中的訪問和道德規範AI

用戶如何訪問Claude的語音模式仍然未指定，但市場展示的策略各不相同。 OpenAI於2月開始為自由層用戶提供其高級語音模式（使用功能較低的GPT-4O MINI模型）的日常預覽，從而通過完整的GPT-4O模型保留不受限制的訪問，用於支付訂戶。這種分層的策略與微軟形成鮮明對比，Microsoft在同一個月使其副副聲的功能完全免費。

在語音模型方面，亞馬遜的Nova Sonic模型於4月推出，重點是通過其床上搖滾平台來開發，專注於表達的，實時的，實時的語音到語音綜合。 Speech-to-speech models aim to translate spoken input directly to spoken output, potentially reducing latency and capturing more vocal nuance compared to traditional speech-to-text-to-speech pipelines.

Google’s Chirp 3 HD voice model, integrated into Vertex AI in March, also targets developers, offering customizable voice styles and an “即時自定義語音” 特徵提出了有關語音複製的道德問題。 Xai的Grok 3語音模式，於2025年2月推出了針對X優質+訂戶的啟動，眾所周知，包括一個“無用的”選項，允許宣誓，侮辱和明確的聊天，反映出最小限制的哲學與典型的主流助手的典型調節式的典型限制的哲學相差，

擬人化的克勞德語音模式接近啟動，網絡搜索和文件上傳的討論

Published by All Things Windows on May 5, 2025

對話型AI競技場

語音中的訪問和道德規範AI

IT Info

當德國用戶加入集體訴訟時，Facebook面臨2019年數據洩漏的罰款

IT Info

OpenAI在重組方面的回溯，非營利組織在巨大壓力下保留控制

IT Info

蘋果上訴嚴厲的裁決，阻止了第三方應用商店的費用

擬人化的克勞德語音模式接近啟動，網絡搜索和文件上傳的討論

Published by All Things Windows on May 5, 2025

對話型AI競技場

語音中的訪問和道德規範AI

Related Posts

IT Info

當德國用戶加入集體訴訟時，Facebook面臨2019年數據洩漏的罰款

IT Info

OpenAI在重組方面的回溯，非營利組織在巨大壓力下保留控制

IT Info

蘋果上訴嚴厲的裁決，阻止了第三方應用商店的費用