在推出以視頻為中心的 Segment Anything Model 2 後不到四個月,Meta 發布了 SAM 3 和 SAM 3D,立即將先進的計算機視覺模型部署到 Facebook Marketplace 和 Instagram 等消費產品中。
這兩種工具都可以讓計算機更好地理解它們所看到的內容。 SAM 3 允許用戶輸入描述,讓 AI 立即查找並突出顯示照片或視頻中的每個匹配對象。
SAM 3D 更進一步,拍攝平面二維圖像並預測對像從其他角度的外觀,有效地將標準照片轉變為可旋轉的 3D 模型。
雖然之前的迭代主要停留在研究領域,但這次更新標誌著向應用實用程序的快速轉變,支持允許用戶可視化家中家具或將效果應用於視頻中的特定對象的功能。
新模型引入了“即時概念分割”,使對場景中所有匹配對象進行文本驅動識別,以及從單個 2D 圖像進行高保真 3D 重建——Meta 聲稱這些功能大幅優於現有基準。
2024 年發布的 SAM 2 主要關注視頻分割效率,但今天的發布顯著拓寬了範圍,包括語義理解和 3D 生成。
從研究到產品:立即集成
Meta 打破了傳統的研究到產品週期,繞過了典型的孵化階段,將 SAM 3 直接集成到其旗艦應用程序中。
Facebook Marketplace 用戶現在將遇到由 SAM 3D 提供支持的“房間查看”功能,該功能允許潛在買家在購買前直觀地看到家具物品在自己的生活空間中的外觀。
該應用程序利用該模型從單個 2D 圖像重建 3D 對象的能力,解決了常見問題在線商務中的摩擦點。
同時,Instagram 的“Edits”應用程序和 Meta AI 中的“Vibes”功能正在利用 SAM 3 來實現精確的、特定於對象的視頻效果。創作者現在可以對視頻幀內的特定主題應用聚光燈或運動軌蹟等修改,這些任務以前需要在專業編輯軟件中進行複雜的遮罩。
在線程上查看
通過自動化這些過程,Meta 旨在將高級視覺效果商品化,使其成為休閒用戶的標準實用程序。
為了促進更廣泛的實驗,該公司推出了“Segment Anything Playground”,一個基於網絡的界面,允許公眾在沒有技術專業知識的情況下測試這些模型。
用戶可以上傳圖像或視頻,並用文本描述提示系統,以實時查看分割功能。這一戰略與 SAM 2 的推出形成鮮明對比,SAM 2 主要仍然是計算機視覺研究社區的工具。
立即部署到消費者應用程序中表明,戰略重點是利用 AI 進步來保留 Meta 社交生態系統中的用戶並提高用戶參與度。
技術飛躍:概念細分和 3D
SAM 3 引入了一項名為“即時概念分割”(PCS) 的重要功能。與之前的版本不同,SAM 3 專注於根據點擊或框等視覺提示來分割單個對象,而 SAM 3 可以識別並屏蔽文本描述的概念的所有實例。
例如,用戶可以用“紅色棒球帽”提示模型,它將分割框架中的每個匹配項目。這種轉變要求模型同時具備對文本的語義理解和精確的本地化能力。
為了實現這一點,該架構使用“存在令牌”將識別與本地化分離。這種機制首先在模型嘗試分割概念之前確定框架中是否存在概念,從而減少誤報並提高整體檢測準確性。
據 Meta 研究團隊稱,“SAM 3 將圖像和視頻 PCS 中現有系統的準確性提高了一倍,並提高了之前 SAM 在視覺分割任務上的能力。”
這種雙重方法使模型能夠處理複雜的查詢,同時在標準分割任務上保持高性能。
Meta Sam 3 使用概念分割任何內容
在 3D 生成中,SAM 3D 可以從單個 2D 圖像重建對象和場景,而這項任務傳統上需要多個視點或深度數據。 Meta 聲稱這種新模型的性能顯著優於現有方法。
Meta AI 團隊指出,“在面對面的人類偏好測試中,它比其他領先模型至少實現了 5:1 的勝率。”這對於增強現實和遊戲中的應用程序尤其重要,其中快速資產生成至關重要。
在線程上查看
Meta 發布的性能指標表明 SAM 3 非常高效。 Meta 研究團隊還表示,“對於在 H200 GPU 上檢測到 100 多個物體的單個圖像,SAM 3 在 30 毫秒內運行。”這樣的速度對於消費設備上的實時應用程序至關重要,因為延遲會降低用戶體驗。
對於人體重建,SAM 3D Body 採用了新的開源格式。
“SAM 3D Body…利用了一種名為 Meta Momentum Human Rig (MHR) 的新開源 3D 網格格式,它通過分離骨骼結構和軟組織形狀來提供增強的可解釋性。”
這種分離可以實現更真實和更真實的效果。可調節的人體模型,這可能會對虛擬化身和動畫產生影響。
儘管取得了這些進步,但該模型並非沒有局限性。 Meta AI 團隊承認,“SAM 3 很難以零樣本的方式泛化到細粒度的域外概念,例如識別需要領域知識的特定術語,例如‘血小板’。”
這表明,雖然該模型對於常見對象來說是穩健的,但它可能需要微調或額外的數據來有效處理專門或罕見的類別。
數據引擎和基準測試
通過利用混合數據引擎,Meta 能夠顯著擴展其訓練數據。該公司開發了一個系統,使用基於 Llama 的“AI 註釋器”來驗證掩碼並檢查詳盡性,這項任務對於人類來說速度會非常慢。
Meta 解釋說,“通過將某些任務委託給 AI 註釋器(匹配或超越人類準確性的模型),與純人類註釋管道相比,我們的吞吐量增加了一倍多。”
這種方法允許創建 SA-Co 數據集,其中包含超過 400 萬個獨特概念和 5200 萬個概念除了模型之外,Meta 還發布了“Segment Anything with Concepts”(SA-Co)基準測試。該數據集包含 207,000 個獨特的概念,旨在測試開放詞彙識別能力,推動評估的行業標準。
數據引擎還迭代地挖掘“硬底片”(圖像中不存在但與模型相反的短語),以提高針對誤報的魯棒性。
除了消費者應用程序之外,該技術還在科學研究中找到了應用。與 Conservation X Labs 合作,將 SAM 3 應用到 SA-FARI 數據集,通過視頻分割幫助自動監測野生動物。該用例展示了該模型在處理大量未經整理的視頻數據以用於研究目的方面的潛在效用。
該版本包括模型權重、代碼和評估數據集,延續了 Meta 開源關鍵人工智能技術的戰略。通過提供這些工具,Meta 旨在製定行業標準並鼓勵 AI 社區內的進一步發展。
未來的工作將側重於通過將 SAM 3 與多模態大型語言模型 (MLLM) 相結合來提高模型處理複雜推理查詢的能力,從而有可能實現更複雜的交互。