Microsoft發布了Vibevoice,這是一種新的開源AI模型,可創建具有多個揚聲器的天然,長格式音頻。該工具在8月下旬宣布,可以使用四個不同的聲音產生長達90分鐘的語音,使其非常適合原型播客或培訓材料。
與許多大型型號不同,Vibevoice足夠小,足以用於標準計算機的研究使用。為了防止濫用濫用,Microsoft具有安全功能,例如Audible AI免責聲明和A
此舉為創建者和研究人員提供了強大的新工具,這表明了該公司在內部開發基礎AI模型的日益雄心,並圍繞生成音頻培養了一個開放的研究社區。 p> “>
vibevoice:gpu
相對高效。這使其可以運行消費級硬件,從而使研究人員的訪問民主化。該框架依賴於下一步的擴散模型來生成高保真音頻。
根據其技術文檔,Vibevoice使用連續的語音託管器以低框架速率為7.5 Hz。這種方法可以在提高計算效率的同時保留音頻質量,這是處理長序列而無需大量硬件要求的重要因素。
以管理對話流程,使用阿里巴巴的開源QWEN2.5 llm對VIBEVOICE進行了培訓。這有助於在長時間內策劃自然的轉彎並保持揚聲器的一致性。潛在用途範圍從創建可訪問的教育內容到針對視頻遊戲的製作複雜的角色對話。
內置的護欄內置護欄ai
認識到濫用的潛力,Microsoft已將大量的保障措施直接嵌入了VibeVoice中。該公司正在對負責人的AI部署採取積極的立場,尤其是對於能夠模仿人類對話的功能強大的開源工具。
該模型生成的每個音頻文件都包括強制性的聽覺免責聲明。這個簡短的音頻剪輯明確指出內容是由AI創建的。此外,每個文件都包含一個隱藏的數字水印,從而可以將音頻的來源追溯到模型。
Microsoft的許可項施加了嚴格的限制。該模型被禁止任何涉及模仿,虛假信息的創造或傳播或對深擊的實時語音轉換的用途。這些護欄旨在減輕風險,同時仍在促進開放研究。
在擁擠的聲音AI景觀中導航
Vibevoice進入了激烈的競爭市場,以獲得生成的聲音AI。它的多揚聲器,長格式的功能將其定位為諸如Google的兩次音符Bookbooklm音頻摘要之類的現有工具的更先進的替代品。該版本強調了更廣泛的整個行業競賽,以完美的合成語音技術。
主要的AI實驗室都爭奪主導地位。 Openai最近通過實時API升級了自己的語音功能。同時,像Anthropic,Mistral和Amazon這樣的公司也推出了強大的模型,每個公司都針對AI助手到企業解決方案的不同用例。
此發布是Microsoft較大戰略樞紐的一部分。它遵循了MAI-1和Mai-Voice-1等其他內部模型的揭幕。 This push signals a clear intent to build proprietary AI, reducing its reliance on its partnership with OpenAI.
About Microsoft AI CEO Mustafa Suleyman hovever has stated, “our goal is to deepen the partnership and make sure that we have a great collaboration with OpenAI for many, many years to come,”suggesting a dual strategy of internal development and external collaboration.
He also確認了該公司的長期承諾,他說:“我們在季度又一個季度投資了巨大的五年路線圖。所以我認為這將繼續。”