Nvidia 研究人員推出了一種新的文本到圖像個性化方法,名為 Perfusion。與重量級同類產品不同,Perfusion 是一個緊湊的模型,大小僅為 100KB,訓練時間約為 4 分鐘。

Perfusion:AI 藝術創作的新方法

Perfusion 由Nvidia 和以色列特拉維夫大學開發,提供了一種獨特的方法來描繪個性化概念,同時保留其身份。儘管尺寸很小,但它超越了領先的AI 藝術生成器所使用的調整方法的效率,例如Stability AI 的Stable Diffusion v1.5、最近發布的Stable Diffusion XL (SDXL) 和MidJourney。

Perfusion 的主要創新是一種稱為“Key-Locking”的機制。這個過程將用戶想要引入的新概念(例如特定的貓或椅子)在圖像生成過程中鏈接到更廣泛的類別。例如,貓將與具有更廣泛的“貓科動物”概念。此方法有助於防止過度擬合,這是一種常見問題,即模型對精確訓練示例的調整過於狹窄,從而使人工智能難以生成該概念的新創意版本。

鑰匙鎖定機制

通過將新貓與以下總體概念相關聯對於一隻貓科動物,該模型可以以各種姿勢、外觀和環境描繪貓,同時仍然保持基本的“貓性”,使其看起來像預期的貓,而不僅僅是任何隨機的貓科動物。本質上,按鍵鎖定允許人工智能靈活地描繪個性化概念,同時保留其核心身份。
 

Perfusion 還可以通過自然交互將多個個性化概念組合在單個圖像中,這與孤立學習概念的現有工具不同。用戶可以通過文本提示來指導圖像創建過程,將特定動物等概念與椅子、書籍、衣服或其他物體等物體相融合。
 

控制視覺保真度和文本對齊

Perfusion 的一個獨特功能是它允許用戶控制視覺保真度(圖像)和推理期間的文本對齊(提示),通過調整單個100KB 模型。此功能使用戶能夠探索文本相似性和圖像相似性之間的權衡,並選擇適合其特定需求的最佳平衡,而無需重新訓練。

Nvidia 對人工智能的日益關注

這項研究與 Nvidia 對人工智能日益增長的關注相一致。由於其 GPU 繼續主導訓練人工智能模型,該公司的股價在 2023 年飆升了 230% 以上。隨著 Anthropic、谷歌、微軟和百度等實體大力投資生成式 AI,Nvidia 的創新 Perfusion 模型可以為其提供競爭優勢。 Nvidia 目前只提交了研究論文,並承諾很快會發布代碼。

與其他AI 圖像生成器的比較

雖然其他AI 圖像生成器提供供用戶微調輸出的方式,它們的尺寸通常較大。例如,LoRA(穩定擴散中使用的一種流行的微調方法)可以向應用程序添加幾十兆字節到超過一千兆字節 (GB) 的任何位置。另一種方法是文本反轉嵌入,它更輕,但準確性較差。使用目前最準確的技術 Dreambooth 訓練的模型重量超過 2GB。

相比之下,Nvidia 聲稱 Perfusion 可以比前面提到的領先 AI 技術產生卓越的視覺質量和提示對齊。與微調整個模型的方法的多 GB 佔用空間相比,超高效的大小使得在微調生成圖像的方式時僅更新所需的部分成為可能。

通過其他研究項目,NVIDIA 一直在推進最先進的生成式AI 研究,採用新方法來增強AI 生成圖像的真實感和質量。

最近的示例AI 圖像生成器

DALL-E 背後的研究組織OpenAI 還推出了ShapE,這是一種可以從文本創建3D 模型的生成模型,為AI 在圖像創建方面開闢了新的可能性。 Stability AI 是一家專注於生成式 AI 的初創公司,它發布了 StableStudio,這是一款開源 Web 應用程序,它使用其穩定擴散模型根據文本提示生成圖像。用戶還可以使用 DreamStudio 功能製作具有不同樣式和屬性的圖像的多種變體。 Meta 公司(前身為 Facebook)推出了 I-JEPA,這是一個基於其生成變壓器模型的人工智能圖像生成器。 I-JEPA 可以學習文字和圖像之間的關聯,並從文本描述生成逼真的圖像。中國電子商務巨頭阿里巴巴推出了統一萬象,這是一款可以處理中文和英文的生成式人工智能圖像生成器。用戶可以使用阿里雲開發的大型模型Composer自定義圖像輸出參數。

Categories: IT Info