OpenAI已推出了升級的語音到文本和文本到語音模型,提高了轉錄準確性並擴展了AI生成的聲音的自定義選項。

集成到OpenAI的API中,這些增強功能旨在為開發人員提供更靈活的工具,以創建對交流的AI,可訪問式AI,ADEACTIONAL ANEVINESS和ASSICTIANIT ADICENTINCE ADINE-PERTECTION ANEVINES ANDINGENITION QUAMINITION ANIVENICTINCE。與Google,Microsoft和新興玩家(例如芝麻AI)推動了合成語音現實主義的邊界。

改進的語音到文本:修復轉錄錯誤和AI幻覺

OpenAi的新介紹了準確性,單詞識別和上下文理解的重大升級,解決了AI生成的轉錄中的長期存在的問題。

上一個模型,竊竊私語,被廣泛用於多種方面的轉錄,但面臨批評的傾向,以幻想

The new models aim to mitigate these issues with improved word error rates, better handling of accents and dialects, and higher resistance to noise interference.

Source: OpenAI

OpenAI states that the model is faster, more accurate, and better suited for real-world applications, including live transcriptions, customer service自動化和AI驅動的可訪問性工具。

雖然OpenAI聲稱這些更新大大減少了幻覺,但需要進行獨立的評估以驗證其準確性的改進。 AI轉錄模型仍在邊緣案例中掙扎,尤其是在處理重疊的語音,沉重的背景噪音或非正式的對話語言時。

文本到語音升級:更現實的AI Voices

在其轉錄改進的同時,OpenAI也引入了新的gpt-4o mini tts text-tot to text-to-spech-spech模型旨在使AI形成的聲音更具表現力,可自定義,允許人類prectike andike andike nine voice nine nine-nine supports nine nine nine supports nine nine nine nine nine nine nine nine nine nine nine nine nine nine nine nine nine,起搏和語音交付。互動。”

AI語音行業越來越有競爭力,隨著Google和Microsoft等競爭對手的重大進步。 Google的新chirp 3高清語音模型允許對音調進行實時適應。

最有爭議的發展之一來自芝麻AI,芝麻AI模仿了AI生成的聲音,例如人類的缺陷,例如猶豫和tone的變化-對實際的人性化的自然言論也是如此,同時是如此的自然言論。

對AI生成的錯誤信息和欺詐提出了道德問題。

[嵌入式內容]

AI語音道德:深層訴訟,同意和安全風險

日益增長的AI生成聲音的現實感激發了人們對欺詐的關注,並激發了欺詐,違反同意,並違反了同意。 Axios reports that AI-generated voice scams are increasing, with criminals using cloned voices to impersonate executives, family members, or customer service representatives.

The ability to複製聲音僅幾秒鐘的音頻就引起了網絡安全專家的警報。

Openai本身對語音道德面臨著高調的批評。 2024年5月,在用戶注意到與女演員斯嘉麗·約翰遜(Scarlett Johansson)相似之後,該公司刪除了其AI生成的聲音之一。約翰遜後來表示,她“從未授予Openai的許可來使用自己的聲音。”

引發了關於AI語音克隆和知識產權權利的討論。

作出回應,Openai強調,其新聲音是由合成訓練數據而不是真實人的記錄來構建的。但是,該公司尚未在其實施的確切保障措施上提供全面的透明度,以防止未經授權的語音複製。

超越語音:Openai對AI驅動的助手的願景

OpenAi將語音模型定位為更大的努力,以開發自動助理助理。 The company has integrated these models with its Agent SDK, enabling developers to build voice-based AI systems for virtual assistants, customer service chatbots, and accessibility tools.

Similar efforts are整個行業正在進行中。 Financial Times reports that OpenAI expects voice-driven AI to become a mainstream interface for computing by 2025, with AI agents handling more complex tasks.同時,

隨著AI生成的聲音,與人類言論相比,技術進步與負責任的部署之間的平衡仍然是一個關鍵問題。 Openai的最新模型顯示了現實主義和可用性方面的明顯進步,但是圍繞AI驅動語音綜合的道德和安全問題尚未解決。