Facebook 的母公司 Meta 宣布開發了一種名為 Voicebox 的新型生成式人工智能 (AI) 模型。最先進的 AI 模型旨在執行各種語音生成任務,包括編輯、採樣和風格化,即使它沒有專門針對這些任務進行訓練。

Voicebox:多語言 AI ​​模型

Voicebox 能夠生成高質量的音頻剪輯和編輯預錄的音頻,例如消除汽車喇叭或狗吠等不需要的噪音,同時保留音頻的內容和風格。該模型也是多語言的,能夠產生六種語言的語音:英語、法語、德語、西班牙語、波蘭語和葡萄牙語。

“Voicebox 可以閱讀任何這些語言的文本,甚至當示例語音和文本使用不同的語言時。 Meta 的官方聲明說,這種能力在未來可以用來幫助人們以自然、真實的方式進行交流,即使他們說的不是同一種語言。

介紹Voicebox,一種新的突破性語音生成系統,基於Meta AI提出的新方法Flow Matching,可以合成六種語言的語音,執行噪聲去除、編輯內容、傳輸音頻風格等。

有關這項工作和示例的更多詳細信息⬇️

— Meta AI (@MetaAI) 2023 年 6 月 16 日

Voicebox 的潛在應用

Voicebox 的潛在應用是巨大的。它可以為元宇宙中的虛擬助手和非玩家角色提供自然的聲音。它還可以讓視障人士聽到朋友的書面消息,人工智能在他們的聲音。此外,它還可以為創作者提供新工具來輕鬆創建和編輯視頻等的音軌。

音頻編輯的突破

Voicebox 最令人印象深刻的功能之一是它能夠編輯和減少音頻剪輯中的噪音。 AI 模型可以重新創建被噪音打斷的部分語音或替換說錯的單詞,而無需重新錄製整個語音。

“例如,您可以識別被噪音打斷的一段語音狗叫聲、裁剪它,並指示 Voicebox 重新生成該片段——就像用於音頻編輯的橡皮擦一樣,”該公司表示。

Voicebox 代表了生成式 AI 研究的又一個重要進步。它說明了 AI 的潛力改變我們與技術和彼此互動的方式。隨著 Meta 繼續探索音頻領域,技術社區熱切期待看到其他研究人員將如何在這項開創性工作的基礎上進行構建。

Meta 和 AI: Recent Developments

2023 年 3 月 31 日,Meta 宣布了一項通過人工視覺皮層為機器人提供“眼睛”的項目。這個名為 SEER(自我監督)的項目是一種計算機視覺模型,可以從互聯網上的任何隨機圖像組中學習,這與以前需要手動標記數據集的模型相比是一個重大轉變。這項技術可能會徹底改變 AI 理解視覺世界並與之交互的方式。

2023 年 5 月 20 日,Meta 推出了 CodeCompose,這是一種類似於 GitHub Copilot 的 AI 驅動編碼工具。 CodeCompose 是一種基於 AI 的生成式編碼助手,旨在提高開發人員在整個軟件開發生命週期中的工作效率。當開發人員在 VS Code 等集成開發環境 (IDE) 中鍵入內容時,該工具會為各種語言提供代碼建議。

2023 年 6 月 6 日,出現了洩露的圖像,暗示 Instagram 正在開發 AI 聊天機器人。這些“AI 代理”將能夠回答問題或向用戶提供建議,並可以選擇從 30 種不同的 AI 個性中進行選擇。開發這種 AI 聊天機器人似乎是對不斷變化的用戶行為的回應,Instagram 上的更多對話正在發生變化

2023 年 6 月 9 日,Meta 的首席執行官馬克扎克伯格宣布計劃將生成人工智能集成到其旗艦產品中,例如 Facebook 和 Instagram。此舉有望改變我們創建、分享、扎克伯格還提到了人工智能角色的開發,可以通過各種方式幫助用戶。

2023 年 6 月 14 日,Meta 宣布了一種名為 I-JEPA 的新 AI 圖像創建模型。I-JEPA,或 Image Joint Embedding Predictive Architecture,旨在根據文本描述創建逼真的圖像。該技術可用於多種目的,包括創建營銷材料、設計產品和生成藝術作品。

Categories: IT Info