Google在周二為其雙子座應用程序推出了強大的新圖像編輯模型。該更新由DeepMind開發,引入了高級功能,旨在為用戶提供更具創造力的控制和一致性,直接挑戰OpenAI和Adobe等競爭對手。

升級旨在解決AI最持久的缺陷之一:在編輯中保持一個人的相似之處。用戶現在可以更改服裝或背景而不會扭曲面孔,將照片融合到一個場景中,或在對話流程中進行迭代更改。

此舉這一舉動表明Google意圖與競爭對手縮小用戶差距。現在,將新模型集成到所有用戶的雙子座應用程序中,並且也可以通過雙子座API,Google AI Studio和Vertex AI向開發人員使用,“>

從“納米-巴納納”(Nano-Banana)到AI編輯的新基準

該模型的公開首次亮相之前是隱秘的,非常成功的預覽。它在眾包評估平台LMARENA上匿名出現為“納米-巴納納”,在成為世界的

它的核心力量是“角色一致性”,可以通過一體或寵物的身份來代替人物或寵物。這解決了許多AI模型的常見故障點,其中編輯背景或服裝可能會巧妙地扭曲受試者的臉部。 With this update, users can place subjects in entirely new scenarios—trying out different outfits, imagining new professions, or even seeing how they would appear in another decade—while ensuring他們看起來仍然像自己

除了保持相似之處之外,該模型還引入了一系列高級創意選擇。用戶現在可以融合多張照片以創建全新的複合場景。例如,一個人可以在籃球場上拍攝自己的照片和另一隻狗的照片,從而在籃球場上形成完美的肖像。另一個功能強大的功能允許“設計混合”,其中一個圖像的樣式可以應用於另一個圖像的對象,例如將花瓣的顏色和紋理傳輸到一對彩虹靴上。

該更新還可以實現多轉移編輯,一個對話過程,用戶可以在其中構建一個帶有順序提示的圖像。一個人可以從一個空房間開始,然後要求雙子座繪畫牆壁,添加書架,放置沙發,最後放下地毯,模型在每個步驟中都保留了場景的完整性。 Nicole Brichtova, a product lead at Google DeepMind, explained the goal was to enhance creative control, noting, “we’re really pushing visual quality forward, as well as the model’s ability to follow instructions.”

A New Leader in the AI Image Competition

This release is a clear and calculated response to a fiercely competitive market where tech giants are racing to define the future of creative 人工智能。在3月,OpenAI將其GPT-4O圖像發生器整合到Chatgpt之後,壓力大大加劇。這一舉動引起了用戶參與度的巨大激增,這是在病毒模因中推動了模型的功能和可訪問性,為集成的AI工具樹立了新的基準。

同時,現有的創意軟件領導者Adobe已積極地支持其旗艦產品Photoshop。該公司最近推出了三個強大的螢火蟲功能功能,包括“協調”以自動匹配添加物體的顏色和照明,“生成性高檔”以增強分辨率。 Adobe副總裁Deepa Subramaniam說,這種方法是由用戶反饋驅動的,他解釋說:“這些新的創新來自我們與創意社區的正在進行的對話,在那裡我們聽到如何在Photoshop中發展工具以消除障礙。 “相比之下,Google的方法直接針對更廣泛的聊天應用程序,旨在進行大規模採用。

競爭壓力在全面加劇,甚至迫使最大的球員適應。梅塔(Meta)最近在內部開發挫折之後旋轉了其戰略,選擇了米德尼(Midjourney)的許可技術,該技術是AI Imagery的領導者Midjourney。 Meta的AI負責人Alexandr Wang認為這一舉動是必要的,並指出該公司必須採用“全部最佳方法”來提供最好的產品。

這一趨勢突出了一個巨人之間既合併又快速專業的市場。利基球員正在興起解決特定的持久問題。例如,Black Forest Labs的Flux.1 Krea模型旨在打擊通用的“ AI外觀”並實現更真實的光真實主義。同樣,阿里巴巴的開源QWEN圖像模型在渲染清晰的文本方面表現出色,這是大多數生成系統的主要障礙。

平衡創意能力與新的保障措施

Google的推動是在先前的AI Image Image Image生成中出現的偶然性。當Gemini在早期產生歷史上不准確的人們的形象,迫使其暫時暫停該功能時,該公司面臨著嚴重的反彈。這個新的發布伴隨著更強大的安全協議。

為了解決深層爆發和錯誤信息的日益增長的威脅,Google正在水印所有生成的內容。圖像將包括一個可見的標記和隱形的,密碼合成的水印,以清楚地表明它們是AI生成的。

這與法律和道德戰鬥的競爭對手形成鮮明對比。 Midjourney目前正面臨迪士尼和Universal培訓數據的備受矚目的版權訴訟。迪士尼的總法律顧問霍拉西奧·古鐵雷斯(Horacio Gutierrez)堅決地說:“盜版是盜版。而且事實是由一家A.I.公司完成的事實並沒有減少侵犯。 ”

行業也面臨著關於AI基準標記的可靠性的人。正如AI戰略家Nate Jones指出的那樣:“當我們將排行榜主導地位作為目標時,我們冒著創建在面對現實時在瑣碎的練習和比目魚中表現出色的模型的風險。 ”

。”

通過將功能強大的用戶友好的編輯工具嵌入其旗艦AI產品中,Google將可訪問性和創造性控制能夠贏得MainStreams用戶。此舉使雙子座不僅是聊天機器人,而且是快速發展的生成AI景觀中的全面創意引擎。

Categories: IT Info