Microsoft on perunut uusimman Bing Image Creator-päivityksensä ja palannut aiempaan DALL-E-malliversioon, kun käyttäjät ovat valittaneet kuvanlaadun heikkenemisestä.
Joulukuussa 2024 julkaistussa päivityksessä esiteltiin PR16, OpenAI:n DALL-E 3:n uusi iteraatio, joka lupaa nopeampaa renderöintiä ja parannettua visuaalista tarkkuutta. Käyttäjien palaute paljasti kuitenkin merkittäviä puutteita mallin tuloksissa, mikä sai Microsoftin palauttamaan edellisen PR13-mallin ongelmien tutkimisen aikana.
DALL-E 3 on ytimenään edistynyt kuvien luontimalli, joka pystyy luomaan visuaalia yksityiskohtaisista tekstikuvauksista. Microsoftin DALL-E 3:n integrointi Bing Image Creatoriin antaa käyttäjille mahdollisuuden luoda mukautettuja visuaalisia kuvia suoraan Bing-hakuliittymässä. Järjestelmässä on myös ominaisuuksia, kuten”tehosteet”, jotka priorisoivat tietyt käyttäjien pyynnöt käsittelyn nopeuttamiseksi.
Aiheeseen liittyvä: Elon Muskin xAI esittelee Tehokas Aurora AI Image Generator
PR16: Lupaava päivitys, joka jäi huomaamatta
Kun Microsoft integroi PR16:n Bing Image Creatoriin, se korosti nopeutta ja visuaalisia parannuksia. Jordi Ribas, Microsoftin haku-ja tekoälyosaston varatoimitusjohtaja selitti, että”sisäinen benchmarking totesi PR16:n laadun olevan keskimäärin hieman parempi”kuin PR13. Päivitys oli osa Microsoftin pyrkimyksiä parantaa tekoälyekosysteemiään integroimalla OpenAI:n DALL-E 3:n edistyneitä ominaisuuksia.
Näistä väitteistä huolimatta käyttäjäkokemukset erosivat merkittävästi Microsoftin vakuutuksista. Redditin ja X:n (entinen Twitter) kaltaisilla alustoilla käyttäjät kuvailivat PR16:n luomia kuvia”elottomiksi”,”sarjakuvamaisiksi”ja puutteellisiksi.
En tiedä kenen luulet vitsaavan tällä. DALL-E on objektiivisesti katsottuna huonompi kuin koskaan tämän”päivityksen”jälkeen, ja muut yritykset, kuten Google, ohittavat sinut. On aivan yötä päivää vertailla kuvanlaatua nyt vain pari kuukautta sitten pic.twitter.com/EdSdk7aign
— ulospäin (@ rokkinoksi) 19. joulukuuta 2024
Erityisiä valituksia olivat muun muassa ylivalaistuja kuvia, vääriä pintakuvioita, ja luonnottomat värisävyt, kuten läpitunkevat vihreät sävyt. Yksi Reddit-käyttäjä kuvaili pettymystään sanomalla, että malli ei enää vastannut heidän kokemustaan aiemmin nauttinut DALL-E:n kanssa.
Erityisen voimakkaat olivat ongelmat monimutkaisissa visuaalisissa elementeissä, kuten pitsikuvioissa ja kerroksellisissa vaatteissa. Käyttäjä, joka yritti luoda anime-tyylisen hahmon korosti, että PR16 renderöi kuvat paljon heikompilaatuisina käyttämällä täsmälleen samaa kehotetta.
Laajemmat renderöintihaasteet DALL:n avulla-E 3
Vaikka Microsoft kohtasi merkittävää kritiikkiä PR16:n käyttöönotosta, ongelmat eivät olleet yksittäisiä Bing Image Creatorille. Marraskuusta 2024 lähtien OpenAI:n ChatGPT-integraation käyttäjät DALL-E 3:n kanssa ovat raportoineet samankaltaisista renderöintihäiriöistä, kuten värivääristymistä, tekstuurien vääristymistä ja valaistusvirheistä.
OpenAI-yhteisöfoorumin havainnot paljastavat, että nämä ongelmat eivät johdu itse DALL-E 3-mallista vaan välijärjestelmistä, jotka vastaavat käyttäjän kehotteiden kääntämisestä renderöintiohjeet.
Aiheeseen liittyvä: Googlen Imagen 3 AI Image Generator on nyt saatavilla Yhdysvalloissa
Foorumissa tehdyn yksityiskohtaisen analyysin mukaan ongelmat todennäköisesti johtuvat kehotteen jäsennys-ja komentoputkien vioista. DALL-E PR16:n nopea käännösjärjestelmä näyttää tuovan epäselvyyksiä, jotka johtavat epäjohdonmukaisiin tuloksiin.
Esimerkiksi kehotteet, jotka sisältävät monimutkaisia pukeutumistyylejä, kuten rokokoomekkoja tai goottilaisia Lolita-malleja, johtavat usein väärin sijoittuviin kuvioihin, virheelliset tekstuurit ja tyylipoikkeamat.
Mielenkiintoista kyllä, nämä ongelmat eivät ole yleisiä. Coze.comin kaltaiset alustat, jotka käyttävät vaihtoehtoista integraatioputkea DALL-E 3:lle, ovat suurelta osin välttäneet Bing Image Creatorissa ja ChatGPT:ssä havaitut renderöintivirheet. Tämä ristiriita viittaa siihen, että ongelmat johtuvat OpenAI:n ja Microsoftin käyttämistä tietyistä välijärjestelmistä, ei AI-ydinmallissa.
Aiheeseen liittyvä: Freepik Mystic Takes on Midjourney, Dall-E in Tekoälykuvan luominen
Microsoftin vastaus ja palautus
Käyttäjiltä saamansa palautteen perusteella Microsoft aloitti palautus PR13:een. Ribas ilmoitti X:n päätöksestä ja totesi:”Kiitos jälleen palautteesta ja kärsivällisyydestä. Olemme pystyneet [toistamaan] jotkin raportoiduista ongelmista ja aiomme palata PR13:een, kunnes voimme korjata ne. Käyttöönottoprosessi on valitettavasti erittäin hidas. Se alkoi yli viikko sitten, ja kestää vielä 2–3 viikkoa, ennen kuin se saavuttaa 100 %.”
Palautus on jo osittain valmis, Pro-käyttäjillä ja noin 25 prosentissa tehostetuista pyynnöistä käytetään nyt PR13:a. asteittainen palautuminen heijastaa suurten tekoälyjärjestelmien päivityksen monimutkaisuutta, etenkin kun käsitellään syvästi integroituja putkia, kuten Bing Image Creatorissa.
Laajempi Vaikutukset tekoälyn käyttöönotolle
Microsoftin kamppailu PR16:n kanssa toistaa samanlaisia haasteita, joita muut teknologiajätit kohtaavat edistyneiden tekoälymallien käyttöönotossa. Esimerkiksi aiemmin vuonna 2024 Google joutui keskeyttämään Gemini chatbot-kuvan luomisen ominaisuudet sen jälkeen, kun työkalu tuotti rodullisesti loukkaavia ja historiallisesti epätarkkoja tuloksia vaikeuksia sovittaa tekoälyn edistysaskeleet käyttäjien odotuksiin, erityisesti luovissa sovelluksissa, kuten kuvien luonnissa.
Tekoälyjärjestelmät, kuten DALL-E 3, luottavat useisiin prosessointikerroksiin käyttäjien kehotteiden tulkitsemiseen ja suorittamiseen. Vaikka ydinmallin ominaisuudet pysyvät vankaina, välijärjestelmien puutteet voivat heikentää suorituskykyä merkittävästi. Tapaus osoittaa, että pienetkin virheelliset linjaukset nopeassa jäsennys-tai renderöintiputkissa voivat johtaa huomattavaan käyttäjien tyytymättömyyteen.
PR16:n käyttöönotto paljasti kuitenkin systeemisiä haasteita yhtenäisyyden ylläpitämisessä. Ongelmia, kuten tekstuurivirhe, värien tarkkuusongelmat ja valaistus. artefaktit korostavat herkkää tasapainoa nopeuden lisäämisen ja renderöinnin tarkkuuden varmistamisen välillä. Näitä haasteita pahentaa yhä monimutkaisempi käyttäjien kehotteet, joissa usein yhdistyvät monimutkaiset tyyli-ja materiaalikuvaukset.
Vaikka benchmarking tarjoaa arvokasta tietoa teknisestä suorituskyvystä, tosielämän sovellukset paljastavat usein ongelmia, joita sisäinen testaus ei voi ennustaa.
Lisäksi Coze.comin ja Bing Image Creatorin kaltaisten alustojen väliset erot viittaavat siihen, että välijärjestelmien jalostaminen on ratkaisevan tärkeää parantamisen kannalta yleistä suorituskykyä.
Näihin haasteisiin vastaaminen vaatii enemmän yhteistyötä kehittäjien, alustaintegraattoreiden ja loppukäyttäjien välillä sen varmistamiseksi, että tekoälyjärjestelmät täyttävät sekä tekniset että esteettiset odotukset.