Microsoft har rullet tilbake sin siste oppdatering til Bing Image Creator, og går tilbake til en tidligere DALL-E modellversjon etter omfattende brukerklager om redusert bildekvalitet.
Desember 2024-oppdateringen introduserte PR16, en ny iterasjon av OpenAIs DALL-E 3, med løfter om raskere gjengivelse og forbedret visuell troskap. Tilbakemeldinger fra brukere avslørte imidlertid betydelige feil i modellens utdata, noe som fikk Microsoft til å gjenopprette den forrige PR13-modellen mens de undersøkte problemene.
I kjernen er DALL-E 3 en avansert bildegenereringsmodell som er i stand til å lage visuelle bilder fra detaljerte tekstbeskrivelser. Microsofts integrasjon av DALL-E 3 i Bing Image Creator gjør det mulig for brukere å generere tilpassede bilder direkte i Bing-søkegrensesnittet. Systemet inkluderer også funksjoner som”boosts”, som prioriterer spesifikke brukerforespørsler for raskere behandling.
Relatert: Elon Musks xAI viser seg Kraftig Aurora AI Image Generator
PR16: En lovende oppdatering som gikk glipp av målet
Når Microsoft integrerte PR16 i Bing Image Creator, det la vekt på hastighet og visuelle forbedringer. Jordi Ribas, Microsofts Corporate Vice President for søk og AI, forklarte,”intern benchmarking fant at kvaliteten til PR16 var litt bedre i gjennomsnitt”enn PR13. Oppdateringen var en del av Microsofts innsats for å forbedre AI-økosystemet sitt ved å integrere avanserte funksjoner fra OpenAIs DALL-E 3.
Til tross for disse påstandene, avviket brukeropplevelsene betydelig fra Microsofts forsikringer. På tvers av plattformer som Reddit og X (tidligere Twitter), beskrev brukere PR16-genererte bilder som «livløse», «tegneserieaktige» og mangler detaljer.
Jeg vet ikke hvem du tror du tuller med dette. DALL-E er objektivt sett verre enn det noen gang har vært etter denne”oppdateringen”, og du blir forbigått av andre selskaper som Google. Det er absolutt natt og dag å sammenligne bildekvalitet nå med bare et par måneder siden pic.twitter.com/EdSdk7aign
— utad (@ roccynoxy) 19. desember 2024
Spesifikke klager inkluderte overbelyste bilder, feilplasserte teksturer, og unaturlige fargetoner, for eksempel gjennomgripende grønne nyanser. En Reddit-bruker beskrev skuffelsen ved å si at modellen ikke lenger samsvarte med opplevelsen de tidligere brukt med DALL-E.
Problemer med intrikate visuelle elementer, som blondemønstre og lagdelte klær, var spesielt uttalte. En bruker som forsøkte å generere en karakter i animestil fremhevet at PR16 gjengav bilder i mye lavere kvalitet ved å bruke nøyaktig samme ledetekst.
Bredere gjengivelsesutfordringer med DALL-E 3
Selv om Microsoft møtte betydelig kritikk for sin PR16-utrulling, var ikke problemene isolert til Bing Image Creator. Siden november 2024 har brukere av OpenAIs ChatGPT-integrasjon med DALL-E 3 rapportert lignende gjengivelsesfeil, inkludert fargeforvrengninger, teksturfeil og belysningsavvik.
Observasjoner fra OpenAI-fellesskapsforumet avslører at disse problemene ikke er forankret i selve DALL-E 3-modellen, men i de mellomliggende systemene som er ansvarlige for å oversette brukermeldinger til gjengivelse instruksjoner.
Relatert: Googles Imagen 3 AI Image Generator nå tilgjengelig i USA
I følge en detaljert analyse på forumet kommer problemene sannsynligvis fra feil i prompt parsing og kommandorørledninger. Det raske oversettelsessystemet i DALL-E PR16 ser ut til å introdusere tvetydigheter som fører til inkonsekvente utdata.
Forespørsler som involverer komplekse klesstiler, som rokokkokjoler eller gotiske Lolita-design, resulterer for eksempel ofte i feilplasserte mønstre, feil teksturer og stilistiske avvik.
Interessant nok er disse problemene ikke universelle. Plattformer som Coze.com, som bruker en alternativ integrasjonspipeline for DALL-E 3, har i stor grad unngått gjengivelsesfeilene som er observert i Bing Image Creator og ChatGPT. Dette avviket antyder at problemer ligger i de spesifikke mellomsystemene som brukes av OpenAI og Microsoft, snarere enn kjerne-AI-modellen.
Relatert: Freepik Mystic tar på seg Midjourney, Dall-E i AI-bildegenerering
Microsofts svar og tilbakeføringen
Med en anerkjennelse av tilbakemeldinger fra brukere, startet Microsoft en rulle tilbake til PR13. Ribas kunngjorde avgjørelsen på X, og sa: «Takk igjen for tilbakemeldingen og tålmodigheten. Vi har vært i stand til å [reprodusere] noen av problemene som er rapportert og planlegger å gå tilbake til PR13 til vi kan fikse dem. Distribusjonsprosessen er veldig treg, dessverre. Det startet for over en uke siden og vil ta 2-3 uker til å nå 100 %.”
Tilbakeføringen er allerede delvis fullført, med Pro-brukere og omtrent 25 % av forsterkede forespørsler som nå bruker PR13. gradvis reversering gjenspeiler kompleksiteten ved å oppdatere store AI-systemer, spesielt når man adresserer dypt integrerte rørledninger som de i Bing Image Creator.
Bredere Implikasjoner for AI-implementering
Microsofts kamp med PR16 gjenspeiler lignende utfordringer som andre teknologigiganter står overfor når det gjelder distribusjon av avanserte AI-modeller. For eksempel måtte Google suspendere Gemini-chatbotens bildegenerering funksjoner etter at verktøyet produserte rasistisk støtende og historisk unøyaktige resultater
Disse hendelsene fremhever de iboende vanskelighetene med å tilpasse AI-fremskritt med brukernes forventninger, spesielt for kreative applikasjoner som bildegenerering.
AI-systemer som DALL-E 3 er avhengige av flere lag med prosessering for å tolke og utføre brukerforespørsler. Selv om kjernemodellens evner forblir robuste, kan feil i mellomsystemer betydelig undergrave ytelsen. Saken illustrerer at selv mindre feiljusteringer i umiddelbar parsing eller gjengivelse av rørledninger kan føre til betydelig misnøye hos brukerne.
Imidlertid avslørte utrullingen av PR16 systemiske utfordringer med å opprettholde konsistens. Problemer som feilplassering av tekstur, problemer med fargegjengivelse og belysning artefakter fremhever den delikate balansen mellom å øke hastigheten og sikre nøyaktighet i gjengivelsen. Disse utfordringene forsterkes av den økende kompleksiteten til brukerforespørsler, som ofte kombinerer intrikate stilistiske beskrivelser og materialbeskrivelser.
Mens benchmarking gir verdifull innsikt i teknisk ytelse, avslører virkelige applikasjoner ofte problemer som intern testing ikke kan forutsi.
I tillegg antyder avvikene mellom plattformer som Coze.com og Bing Image Creator at raffinering av mellomsystemer er avgjørende for forbedre den generelle ytelsen.
Å møte disse utfordringene krever mer samarbeid mellom utviklere, plattformintegratorer og sluttbrukere for å sikre at AI-systemer oppfyller både tekniske og estetiske forventninger.