Ang Google ay gumulong ng isang malakas na bagong modelo ng pag-edit ng imahe para sa Gemini app nitong Martes. Binuo ng DeepMind, ipinakilala ng pag-update ang mga advanced na tampok na idinisenyo upang bigyan ang mga gumagamit ng mas malikhaing kontrol at pagkakapare-pareho, na direktang mapaghamong mga karibal tulad ng OpenAi at Adobe. Maaari na ngayong baguhin ng mga gumagamit ang mga outfits o background nang walang pag-distort ng mga mukha, timpla ang mga larawan sa isang solong eksena, o gumawa ng mga pagbabago sa iterative sa isang daloy ng pag-uusap. Ang bagong modelo ay isinama ngayon sa Gemini App para sa lahat ng mga gumagamit at magagamit din sa mga developer sa pamamagitan ng Gemini API, Google AI Studio, at Vertex AI,
Mula sa’Nano-Banana’hanggang sa isang bagong benchmark sa pag-edit ng AI Ito ay lumitaw nang hindi nagpapakilala sa platform ng pagsusuri ng madla na si Lmarena bilang”Nano-Banana,”mabilis na bumubuo ng buzz sa pamayanan ng AI bago naging mundo top-rated na modelo ng pag-edit ng imahe . Si David Sharon, isang nangunguna para sa Gemini Apps, ay naka-highlight ng masigasig na pagtanggap nito, na nagsasabi,”Ang mga tao ay pupunta sa saging sa ibabaw nito sa mga unang preview-ito ang pinakamataas na rated na modelo ng pag-edit ng imahe sa mundo.”
Tinutugunan nito ang isang karaniwang punto ng pagkabigo para sa maraming mga modelo ng AI, kung saan ang pag-edit ng isang background o isang sangkap ay maaaring subtly distort ang mukha ng isang paksa. Sa pag-update na ito, ang mga gumagamit ay maaaring maglagay ng mga paksa sa ganap na mga bagong sitwasyon-sinusubukan ang iba’t ibang mga outfits, pag-isip ng mga bagong propesyon, o kahit na makita kung paano sila lilitaw sa ibang dekada-kapag tinitiyak pa rin ang hitsura nila sa kanilang sarili . Ang mga gumagamit ay maaari na ngayong maghalo ng maraming mga larawan upang lumikha ng isang bagong-composite na eksena. Halimbawa, ang isa ay maaaring kumuha ng larawan ng kanilang sarili at isa pa sa kanilang aso upang makabuo ng isang perpektong larawan ng mga ito nang magkasama sa isang basketball court. Ang isa pang malakas na tampok ay nagbibigay-daan para sa”Paghahalo ng Disenyo,”kung saan ang estilo ng isang imahe ay maaaring mailapat sa isang bagay sa isa pa, tulad ng paglilipat ng kulay at texture ng mga petals ng bulaklak papunta sa isang pares ng mga rainboots. Maaaring magsimula ang isa sa isang walang laman na silid, pagkatapos ay hilingin kay Gemini na ipinta ang mga dingding, magdagdag ng isang rak ng libro, maglagay ng isang sofa, at sa wakas ay maglagay ng isang basahan, kasama ang modelo na pinapanatili ang integridad ng eksena sa bawat hakbang. Si Nicole Brichtova, isang produkto na nangunguna sa Google DeepMind, ay ipinaliwanag ang layunin ay upang mapahusay ang kontrol ng malikhaing, na tandaan,”Talagang itinutulak namin ang kalidad ng visual na pasulong, pati na rin ang kakayahan ng modelo na sundin ang mga tagubilin.”
Malikhaing AI. Ang presyon ay tumindi nang malaki matapos isama ng OpenAi ang generator ng imahe ng GPT-4O na direkta sa Chatgpt noong Marso. Ang paglipat na iyon ay nagtulak ng isang napakalaking pagsulong sa pakikipag-ugnayan ng gumagamit, na na-fuel sa pamamagitan ng mga meme ng viral na nagpakita ng kapangyarihan at pag-access ng modelo, na nagtatakda ng isang bagong benchmark para sa pinagsamang AI tool. Kamakailan lamang ay inilabas ng kumpanya ang isang trio ng malakas, mga tampok na pinapagana ng firefly, kasama ang’Harmonize’upang awtomatikong tumugma sa kulay at pag-iilaw ng mga idinagdag na bagay,’generative upscale’upang mapahusay ang resolusyon, at isang pinabuting’alisin ang tool’. Si Deepa Subramaniam, isang Adobe VP, ay nagsabing ang pamamaraang ito ay hinihimok ng puna ng gumagamit, na nagpapaliwanag na”ang mga bagong makabagong ito ay nagmula sa aming patuloy na pag-uusap sa malikhaing pamayanan, kung saan naririnig natin kung paano namin mababago ang mga tool sa Photoshop upang alisin ang mga hadlang.”Ang diskarte ng Google, sa kaibahan, ay nagta-target ng isang mas malawak na madla ng mamimili nang direkta sa loob ng chat app nito, na naglalayong pag-aampon ng masa. Kamakailan lamang ay isinalin ni Meta ang diskarte nito matapos ang mga panloob na pag-unlad ng pag-unlad, na pumipili sa teknolohiya ng lisensya mula sa midjourney, isang pinuno sa naka-istilong imaheng AI. Ang pinuno ng AI ng Meta na si Alexandr Wang, ay nag-frame ng paglipat bilang isang pangangailangan, na nagsasaad ng kumpanya ay dapat kumuha ng isang”all-of-the-above diskarte”upang maihatid ang pinakamahusay na mga produkto. Ang mga manlalaro ng angkop na lugar ay umuusbong upang malutas ang mga tiyak, patuloy na mga problema. Halimbawa, ang flux ng Black Forest Labs.1 Krea Model ay inhinyero upang labanan ang pangkaraniwang”AI hitsura”at makamit ang mas tunay na photorealism. Katulad nito, ang open-source QWEN-image na modelo ng Alibaba ay higit sa pag-render ng mababasa na teksto, isang pangunahing sagabal para sa karamihan ng mga sistema ng pagbuo. Ang kumpanya ay nahaharap sa makabuluhang pag-backlash nang ang Gemini sa mga unang araw nito ay gumawa ng makasaysayang hindi tumpak na mga imahe ng mga tao, na pinilit itong pansamantalang suspindihin ang tampok. Ang bagong paglulunsad na ito ay sinamahan ng mas matatag na mga protocol ng kaligtasan. Kasama sa mga imahe ang parehong isang nakikitang marker at isang hindi nakikita, cryptographic synthid watermark upang malinaw na ipakita ang mga ito ay ai-generated. Ang Midjourney ay kasalukuyang nahaharap sa isang mataas na profile na demanda ng copyright mula sa Disney at Universal sa data ng pagsasanay nito. Ang pangkalahatang payo ng Disney na si Horacio Gutierrez, ay nagsagawa ng isang mahirap na linya, na nagsasabi,”Ang pandarambong ay pandarambong. At ang katotohanan na ginawa ito ng isang kumpanya ng A.I. ay hindi ginagawang mas mababa sa paglabag.”
Ang industriya ay nahaharap din sa pag-aalinlangan sa pagiging maaasahan ng mga benchmark ng AI. Tulad ng nabanggit ng strategist ng AI na si Nate Jones,”Sa sandaling itinakda namin ang pangingibabaw ng leaderboard bilang layunin, panganib namin ang paglikha ng mga modelo na higit sa mga trivial na pagsasanay at flounder kapag nahaharap sa katotohanan.”Ang Mga Posisyon ng Paglipat Gemini hindi lamang bilang isang chatbot, ngunit bilang isang komprehensibong malikhaing makina sa mabilis na umuusbong na generative AI landscape.