Ibinalik ng Microsoft ang pinakabagong update nito sa Bing Image Creator, na bumalik sa mas naunang bersyon ng modelo ng DALL-E pagkatapos ng malawakang reklamo ng user tungkol sa pinababang kalidad ng larawan.
Ipinakilala ng update noong Disyembre 2024 ang PR16, isang bagong pag-ulit ng DALL-E 3 ng OpenAI, na may mga pangako ng mas mabilis na pag-render at pinahusay na visual fidelity. Gayunpaman, ang feedback ng user ay nagpahayag ng mga makabuluhang bahid sa mga output ng modelo, na nag-udyok sa Microsoft na ibalik ang nakaraang modelo ng PR13 habang sinisiyasat ang mga isyu.
Sa kaibuturan nito, ang DALL-E 3 ay isang advanced na modelo ng pagbuo ng imahe na may kakayahang lumikha ng mga visual mula sa mga detalyadong paglalarawan ng teksto. Ang pagsasama ng Microsoft ng DALL-E 3 sa Bing Image Creator ay nagbibigay-daan sa mga user na bumuo ng mga custom na visual nang direkta sa loob ng interface ng paghahanap sa Bing. Kasama rin sa system ang mga feature tulad ng “boost,” na nagbibigay-priyoridad sa mga partikular na kahilingan ng user para sa mas mabilis na pagproseso.
Nauugnay: Ang xAI ni Elon Musk ay Nagpapakitang Makapangyarihan Aurora AI Image Generator
PR16: Isang Pangako na Update na Hindi Nakikita ang Marka
Noong Microsoft pinagsama ang PR16 sa Bing Image Creator, binigyang-diin nito ang bilis at mga visual na pagpapahusay. Jordi Ribas, Microsoft’s Ipinaliwanag ng Corporate Vice President of Search at AI,”natuklasan ng panloob na benchmarking na medyo mas mahusay ang kalidad ng PR16 sa average”kaysa sa PR13. Ang pag-update ay bahagi ng mga pagsisikap ng Microsoft na pahusayin ang AI ecosystem nito sa pamamagitan ng pagsasama-sama ng mga advanced na kakayahan mula sa DALL-E 3 ng OpenAI.
Sa kabila ng mga paghahabol na ito, ang mga karanasan ng user ay makabuluhang nagkakaiba sa mga pagtitiyak ng Microsoft. Sa mga platform tulad ng Reddit at X (dating Twitter), inilarawan ng mga user ang mga larawang binuo ng PR16 bilang”walang buhay,””cartoonish,”at walang detalye.
Hindi ko alam kung sino sa tingin mo ang niloloko mo dito. Ang DALL-E ay talagang mas masahol kaysa dati pagkatapos ng”update”na ito at nahihigitan ka ng ibang mga kumpanya tulad ng Google. Talagang gabi at araw na ang paghahambing ng kalidad ng larawan ngayon sa ilang buwan lang ang nakalipas pic.twitter.com/EdSdk7aign
— palabas (@ roccynoxy) Disyembre 19, 2024
Kasama sa mga partikular na reklamo ang mga over-lit na larawan, mga maling pagkakalagay, at hindi natural na mga kulay ng kulay, tulad ng malaganap na berdeng kulay. Isang Reddit user ang inilarawan ang kanilang pagkabigo sa pamamagitan ng pagsasabing hindi na tumugma ang modelo sa karanasan nila dating tinangkilik sa DALL-E.
Ang mga isyung may masalimuot na visual na elemento, tulad ng mga pattern ng lace at layered na damit, ay partikular na binibigkas. Isang user na nagtangkang bumuo ng anime-style na character na-highlight na ang PR16 ay nag-render ng mga larawan sa mas mababang kalidad gamit ang eksaktong parehong prompt.
Mas malawak na Mga Hamon sa Pag-render sa DALL-E 3
Habang nahaharap ang Microsoft ng makabuluhang kritisismo para sa paglulunsad nito ng PR16, ang mga isyu ay hindi nakahiwalay sa Bing Image Creator. Mula noong Nobyembre 2024, ang mga user ng OpenAI’s ChatGPT integration sa DALL-E 3 ay nag-ulat ng mga katulad na pagkabigo sa pag-render, kabilang ang mga pagbaluktot ng kulay, mga maling pagkakalagay ng texture, at mga anomalya sa pag-iilaw.
Ipinakikita ng mga obserbasyon mula sa forum ng komunidad ng OpenAI na ang mga problemang ito ay hindi nag-ugat sa mismong modelo ng DALL-E 3 ngunit sa mga intermediate system na responsable para sa pagsasalin ng mga prompt ng user sa mga tagubilin sa pag-render.
Kaugnay: Ang Imagen 3 AI Image Generator ng Google ay Maa-access na ngayon sa US
Ayon sa isang detalyadong pagsusuri sa forum, malamang na nagmumula ang mga isyu mula sa mga pagkabigo sa agarang pag-parse at command pipeline. Ang mabilis na sistema ng pagsasalin sa DALL-E PR16 ay lumilitaw na nagpapakilala ng mga ambiguity na humahantong sa hindi pantay na mga output.
Halimbawa, ang mga prompt na kinasasangkutan ng mga kumplikadong istilo ng pananamit, gaya ng mga Rococo dress o Gothic Lolita na disenyo, ay kadalasang nagreresulta sa mga maling pattern, maling texture, at stylistic deviations.
Kapansin-pansin, ang mga isyung ito ay hindi pangkalahatan. Ang mga platform tulad ng Coze.com, na gumagamit ng alternatibong integration pipeline para sa DALL-E 3, ay higit na nakaiwas sa mga rendering flaws na nakita sa Bing Image Creator at ChatGPT. Iminumungkahi ng pagkakaibang ito na ang mga problema ay nasa mga partikular na intermediate system na ginagamit ng OpenAI at Microsoft, sa halip na ang pangunahing modelo ng AI.
Kaugnay: Freepik Mystic Takes on Midjourney, Dall-E sa AI Image Generation
Microsoft’s Response and the Rollback
Bilang pagkilala sa feedback ng user, sinimulan ng Microsoft ang isang rollback sa PR13. Inihayag ni Ribas ang desisyon sa X, na nagsasabing: “Salamat muli sa feedback at pasensya. Nagawa naming [i-reproduce] ang ilan sa mga isyung iniulat at planong ibalik sa PR13 hanggang sa maayos namin ang mga ito. Ang proseso ng pag-deploy ay napakabagal, sa kasamaang-palad. Nagsimula ito mahigit isang linggo na ang nakalipas at aabutin ng 2-3 linggo pa bago makarating sa 100%.”
Ang rollback ay bahagyang kumpleto na, kasama ang mga Pro user at humigit-kumulang 25% ng mga pinalakas na kahilingan na gumagamit na ngayon ng PR13. Ang Ang unti-unting pagbabalik ay sumasalamin sa mga kumplikado ng pag-update ng malakihang AI system, lalo na kapag tinutugunan ang malalim na pinagsamang mga pipeline tulad ng nasa Bing Image Creator.
Mas malawak na Implikasyon para sa AI Deployment
Ang mga pakikibaka ng Microsoft sa PR16 ay sumasalamin sa mga katulad na hamon na kinakaharap ng iba pang mga tech na higante sa pag-deploy ng mga advanced na modelo ng AI Halimbawa, noong unang bahagi ng 2024, kinailangan ng Google na suspindihin ang mga feature ng pagbuo ng imahe ng Gemini chatbot pagkatapos ng. Ang tool ay gumawa ng mga nakakasakit na lahi at hindi tumpak sa kasaysayan
Ang mga insidenteng ito ay nagha-highlight sa mga likas na kahirapan sa pag-align ng AI mga pagsulong na may mga inaasahan ng user, lalo na para sa mga creative na application tulad ng pagbuo ng imahe.
Ang mga AI system tulad ng DALL-E 3 ay umaasa sa maraming layer ng pagproseso upang bigyang-kahulugan at isagawa ang mga prompt ng user. Bagama’t nananatiling matatag ang mga kakayahan ng pangunahing modelo, ang mga depekto sa mga intermediate na system ay maaaring makapinsala sa pagganap. Inilalarawan ng kaso na kahit na ang mga maliliit na misalignment sa agarang pag-parse o pag-render ng mga pipeline ay maaaring magresulta sa malaking kawalang-kasiyahan ng user.
Gayunpaman, ang paglulunsad ng PR16 ay nagpahayag ng mga sistematikong hamon sa pagpapanatili ng pare-pareho Mga isyu tulad ng texture misplacement, color fidelity problem, at lighting Itinatampok ng mga artifact ang maselang balanse sa pagitan ng pagpapahusay ng bilis at pagtiyak ng katumpakan sa pag-render. Ang mga hamon na ito ay pinalala ng lumalagong pagiging kumplikado ng mga senyas ng user, na kadalasang pinagsasama ang masalimuot na istilo at materyal na paglalarawan.
Habang ang benchmarking ay nagbibigay ng mahahalagang insight sa teknikal na pagganap, ang mga real-world na application ay kadalasang naghahayag ng mga isyu na hindi mahulaan ng panloob na pagsubok.
Higit pa rito, ang mga pagkakaiba sa pagitan ng mga platform tulad ng Coze.com at Bing Image Creator ay nagmumungkahi na ang pagpino sa mga intermediate na system ay kritikal para sa pagpapabuti ng pangkalahatang pagganap.
Ang pagtugon sa mga hamong ito ay nangangailangan ng higit pang pagtutulungang pagsisikap sa pagitan ng mga developer, platform integrator, at end-user upang matiyak na ang mga AI system ay nakakatugon sa parehong teknikal at aesthetic na mga inaasahan.