Nagbigay ang OpenAI ng maagang sulyap sa DALL·E 3, ang pinakabagong pag-ulit ng kilalang tool sa pagbuo ng imahe nito. Nangangako itong bagong bersyon na maghatid ng mga larawang higit na naaayon sa mga query ng user, na binibigyang-diin ang pinahusay nitong kakayahan na maunawaan at bigyang-kahulugan ang mga prompt. Ang anunsyo ng bagong modelo ay dumating pagkatapos ng impormasyon tungkol dito ay na-leak kamakailan online.

Ang DALL-E ay isang AI na bumubuo ng imahe na pinagsama-samang binuo ng OpenAI at Microsoft. Nagbigay ang Redmond ng isang Azure-powered supercomputer upang lumikha ng AI. Ito ang parehong computing system na bumuo ng GPT AI engine, na ngayon ay hanggang sa GPT-4 at mga serbisyong nagpapagana tulad ng Bing Chat at Microsoft 365 Copilot. Ang DALL-E ay bahagi rin ng paghahanap/paglikha ng imahe ng Bing Image Creator ng Microsoft.

Mga Pangunahing Tampok at Pagpapabuti

Namumukod-tangi ang DALL·E 3 para sa mga makabuluhang pagsulong nito sa pag-unawa sa mga pagkakaiba ng mga senyas, lalo na ang mga mas mahaba. Nagpakita ito ng kapansin-pansing pagpapabuti kaysa sa hinalinhan nito, ang DALL·E 2, na ipinakilala noong Abril 2022.

Ang aming bagong text-to-image na modelo, DALL·E 3, ay maaaring magsalin ng mga nuanced na kahilingan sa lubhang detalyado at tumpak na mga larawan.

Darating malapit na sa ChatGPT Plus & Enterprise, na makakatulong sa iyong gumawa ng mga kamangha-manghang senyas upang bigyang-buhay ang iyong mga ideya:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL

— OpenAI (@OpenAI) Setyembre 20, 2023

Isa sa mga pangunahing update ay ang pagsasama sa ChatGPT, na nagpapahintulot sa mga user na pinuhin ang kanilang mga kahilingan sa larawan sa pamamagitan ng mga interactive na pag-uusap sa chatbot. Nangangahulugan ito na ang mga user ay maaari na ngayong tumanggap ng mga nabuong larawan nang direkta sa loob ng chat application. Naiskedyul ng OpenAI ang paglabas ng DALL·E 3 para sa ChatGPT Plus at mga customer ng enterprise noong Oktubre, na may mas malawak na release para sa publiko at mga customer ng API na binalak para sa susunod na taglagas.

Kakayahan ng tool na gumawa ng mataas na kalidad Kapansin-pansin ang mga larawang malapit na tumutugma sa mga query ng user. Halimbawa, ang DALL·E 3 ay maaaring makabuo ng mga larawan sa pamamagitan ng masusing pagsunod sa mga masalimuot na paglalarawan at pamamahala ng in-image na pagbuo ng teksto, gaya ng mga label at palatandaan, isang hamon para sa mga naunang modelo. Iminumungkahi ng mga materyal na pang-promosyon ng OpenAI na ang DALL·E 3 ay maaaring mag-render ng mga bagay na may kaunting mga pagpapapangit, na sumusunod nang tapat sa ibinigay na mga senyas.

Mga Pagsasaalang-alang sa Kaligtasan at Etikal

Ang OpenAI ay may binigyang-diin din ang pangako nito sa mga pagsasaalang-alang sa kaligtasan at etikal. Ang kumpanya ay nagpasimula ng mga hakbang upang mapahusay ang kaligtasan ng DALL·E 3 at mabawasan ang algorithmic bias. Bilang tugon sa mga alalahanin na ibinangon ng mga artist tungkol sa mga image generator, ang DALL·E 3 ay na-program upang tanggihan ang mga kahilingang naghahanap ng mga larawan sa istilo ng mga buhay na artista. Bukod dito, may opsyon na ngayon ang mga artist na ibukod ang ilan o lahat ng kanilang mga larawan mula sa paggamit sa pagsasanay sa hinaharap na mga modelo ng pagbuo ng imahe ng OpenAI.

Bukod pa sa mga hakbang na ito, nag-anunsyo ang OpenAI ng mga pakikipagtulungan sa mga ekspertong kontratista para magsagawa ng “pula teaming”ng mga produkto nito, na naglalayong tukuyin ang mga potensyal na bias at iba pang isyu.

The Competitive Landscape

Habang ang DALL·E 3 ay nakahanda na magtakda ng mga bagong pamantayan sa larangan ng pagbuo ng imahe, nahaharap ang OpenAI sa kumpetisyon mula sa iba pang mga tool sa merkado. Ang mga open-source na tool tulad ng Stable Diffusion at mga alok mula sa iba’t ibang mga tech na kumpanya ay nag-aagawan din para sa bahagi ng merkado. Gayunpaman, kasama ang mga advanced na feature nito at ang suporta ng Ang reputasyon ng OpenAI, ang DALL·E 3 ay mahusay na nakaposisyon upang manguna sa pagbuo ng imahe na hinimok ng AI.

Ang mga kamakailang halimbawa ng AI Image Generators

OpenAI ay ipinakilala rin ShapE, isang generative na modelo na maaaring lumikha ng mga 3D na modelo mula sa text, na nagbubukas ng mga bagong posibilidad para sa AI sa paglikha ng imahe. Ang Stability AI, isang startup na nakatutok sa generative AI, ay naglabas ng StableStudio, isang open-source na web app na gumagamit ng Stable Diffusion na modelo nito para bumuo ng mga larawan mula sa mga text prompt. Magagamit din ng mga user ang mga feature ng DreamStudio para gumawa ng maraming variation ng isang larawan na may iba’t ibang istilo at attribute. Ang Meta, ang kumpanyang dating kilala bilang Facebook, ay naglabas ng I-JEPA, ang sarili nitong AI image generator batay sa generative transformer model nito. Maaaring matutunan ng I-JEPA ang mga ugnayan sa pagitan ng mga salita at larawan, at makabuo ng mga makatotohanang larawan mula sa mga paglalarawan ng teksto. Ang Alibaba, ang Chinese e-commerce giant, ay inilunsad ang Tongyi Wanxiang, isang generative AI image generator na kayang humawak ng mga wikang Chinese at English. Maaaring i-customize ng mga user ang mga parameter ng output ng larawan gamit ang Composer, isang malaking modelo na binuo ng Alibaba Cloud. Ang higanteng chip na Nvidia ay nag-debut ng tool sa paglikha ng sining ng Perfusion AI noong Agosto.

Categories: IT Info