Microsoft ka rikthyer përditësimin e tij të fundit në Bing Image Creator, duke u rikthyer në një version të mëparshëm të modelit DALL-E pas ankesave të përhapura të përdoruesve për cilësinë e reduktuar të imazhit.
Përditësimi i dhjetorit 2024 prezantoi PR16, një përsëritje e re e DALL-E 3 të OpenAI, me premtime për interpretim më të shpejtë dhe besnikëri vizuale të përmirësuar. Sidoqoftë, reagimet e përdoruesve zbuluan të meta të rëndësishme në rezultatet e modelit, duke e shtyrë Microsoft-in të rivendoste modelin e mëparshëm PR13 ndërsa hetonte problemet.
Në thelbin e tij, DALL-E 3 është një model i avancuar i gjenerimit të imazheve i aftë për të krijuar pamje nga përshkrimet e detajuara të tekstit. Integrimi i DALL-E 3 nga Microsoft në Bing Image Creator u mundëson përdoruesve të gjenerojnë pamje vizuale të personalizuara direkt brenda ndërfaqes së kërkimit Bing. Sistemi përfshin gjithashtu veçori të tilla si”rritje”, të cilat u japin përparësi kërkesave specifike të përdoruesve për përpunim më të shpejtë.
PR16: Një përditësim premtues që humbi Mark
Kur Microsoft integroi PR16 në Bing Image Creator, ai theksoi shpejtësinë dhe pamjen Përmirësimet Jordi Ribas, Zëvendës President i Korporatës i Microsoft-it për Kërkimin dhe AI, shpjegoi, “u gjet një krahasim i brendshëm. Cilësia e PR16 të jetë mesatarisht pak më e mirë se PR13. Përditësimi ishte pjesë e përpjekjeve të Microsoft për të përmirësuar ekosistemin e tij të AI duke integruar aftësi të avancuara nga DALL-E 3 i OpenAI.
Pavarësisht këtyre pretendimeve, përvojat e përdoruesve ndryshuan ndjeshëm nga garancitë e Microsoft. Nëpër platforma si Reddit dhe X (dikur Twitter), përdoruesit i përshkruan imazhet e krijuara nga PR16 si”të pajetë”,”karikaturiste”dhe pa detaje.
Nuk e di se me kë mendon se po tallesh me këtë. DALL-E është objektivisht më keq se kurrë pas këtij”përditësimi”dhe ju jeni duke u tejkaluar nga kompani të tjera si Google. Është absolutisht natë dhe ditë duke krahasuar cilësinë e imazhit tani me vetëm disa muaj më parë pic.twitter.com/EdSdk7aign
— jashtë (@ rokcinoksi) 19 dhjetor 2024
Ankesa specifike përfshinin imazhe të mbindriçuara, tekstura të pavendosura, dhe tone ngjyrash të panatyrshme, të tilla si nuancat e gjelbra të përhapura. Një përdorues i Reddit përshkroi zhgënjimin e tyre duke deklaruar se modeli nuk përputhej më me përvojën që ata më parë ishte shijuar me DALL-E.
Çështjet me elemente vizuale të ndërlikuara, si modelet e dantellave dhe veshjet me shtresa, ishin veçanërisht të theksuara. Një përdorues që u përpoq të krijonte një personazh të stilit anime theksoi se PR16 jepte imazhe në cilësi shumë më të ulët duke përdorur të njëjtën kërkesë.
Sfida më të gjera të paraqitjes me DALL-E 3
Ndërsa Microsoft u përball me kritika të konsiderueshme për paraqitjen e tij PR16, çështjet nuk ishin të izoluara nga Bing Image Creator. Që nga nëntori 2024, përdoruesit e integrimit ChatGPT të OpenAI me DALL-E 3 kanë raportuar dështime të ngjashme të paraqitjes, duke përfshirë shtrembërimet e ngjyrave, pozicionet e gabuara të teksturës dhe anomalitë e ndriçimit.
Vëzhgimet nga forumi i komunitetit OpenAI zbulojnë se këto probleme nuk janë të rrënjosura në vetë modelin DALL-E 3, por në sistemet e ndërmjetme përgjegjëse për përkthimi i kërkesave të përdoruesve në udhëzime përkthimi.
Sipas një analize të detajuar në forum, problemet ka të ngjarë të rrjedhin nga dështimet në analizimin e shpejtë dhe tubacionet e komandës. Sistemi i përkthimit të shpejtë në DALL-E PR16 duket se prezanton paqartësi që çojnë në rezultate të paqëndrueshme.
Për shembull, kërkesat që përfshijnë stile komplekse veshjesh, si fustanet Rokoko ose dizajnet Gotike Lolita, shpesh rezultojnë në modele të gabuara. tekstura të pasakta dhe devijime stilistike.
Interesante, këto çështje nuk janë universale. Platformat si Coze.com, të cilat përdorin një tubacion alternativ integrimi për DALL-E 3, kanë shmangur kryesisht të metat e paraqitjes të vërejtura në Bing Image Creator dhe ChatGPT. Kjo mospërputhje sugjeron se problemet qëndrojnë në sistemet specifike të ndërmjetme të përdorura nga OpenAI dhe Microsoft, në vend të modelit bazë të AI.
Përgjigja e Microsoft dhe Rikthimi
Duke pranuar reagimet e përdoruesve, Microsoft filloi një rikthim në PR13. Ribas njoftoi vendimin për X, duke thënë: “Faleminderit sërish për komentet dhe durimin. Ne kemi qenë në gjendje të [riprodhojmë] disa nga problemet e raportuara dhe planifikojmë të rikthehemi në PR13 derisa t’i rregullojmë ato. Procesi i vendosjes është shumë i ngadaltë, për fat të keq. Filloi më shumë se një javë më parë dhe do të duhen 2-3 javë të tjera për të arritur në 100%.”
Rikthimi është tashmë pjesërisht i përfunduar, me përdoruesit Pro dhe rreth 25% të kërkesave të shtuara tani duke përdorur PR13. kthimi gradual pasqyron kompleksitetin e përditësimit të sistemeve të inteligjencës artificiale në shkallë të gjerë, veçanërisht kur adresohen tubacionet e integruara thellësisht si ato në Bing Image Creator.
Përpjekjet e Microsoft me PR16 i bëjnë jehonë sfidave të ngjashme me të cilat përballen gjigantët e tjerë të teknologjisë në vendosjen e modeleve të avancuara të AI, për shembull, më herët në vitin 2024, Google duhej ta pezullonte atë Karakteristikat e gjenerimit të imazheve të chatbot-it Gemini pasi mjeti prodhoi rezultate fyese racore dhe historikisht të pasakta.
Këto incidente nxjerrin në pah vështirësitë e qenësishme të përafrimit të përparimeve të AI me pritshmëritë e përdoruesve, veçanërisht për aplikacionet krijuese si gjenerimi i imazheve.
Sistemet e AI si DALL-E 3 mbështeten në shtresa të shumta të përpunimit për të përpunuar. interpretojnë dhe ekzekutojnë kërkesat e përdoruesit. Ndërsa aftësitë e modelit bazë mbeten të fuqishme, të metat në sistemet e ndërmjetme mund të dëmtojnë ndjeshëm performancën. Rasti ilustron se edhe mospërputhjet e vogla në analizimin ose paraqitjen e shpejtë të tubacioneve mund të rezultojnë në pakënaqësi të konsiderueshme të përdoruesve.
Megjithatë, prezantimi i PR16 zbuloi sfida sistematike në ruajtjen e konsistencës Çështje si mosvendosja e teksturës, problemet e besnikërisë së ngjyrave dhe ndriçimi. artefaktet nxjerrin në pah ekuilibrin delikat midis rritjes së shpejtësisë dhe sigurimit të saktësisë në pasqyrimi. Këto sfida përkeqësohen nga kompleksiteti në rritje i kërkesave të përdoruesve, të cilat shpesh kombinojnë përshkrime të ndërlikuara stilistike dhe materiale.
Ndërsa krahasimi ofron njohuri të vlefshme për performancën teknike, aplikacionet e botës reale shpesh zbulojnë çështje që testimi i brendshëm nuk mund t’i parashikojë.
Për më tepër, mospërputhjet midis platformave si Coze.com dhe Bing Image Creator sugjerojnë se rafinimi i sistemeve të ndërmjetme është kritik për përmirësimin e performancës së përgjithshme.
Trajtimi i këtyre sfidave kërkon më shumë përpjekje bashkëpunuese midis zhvilluesve, integruesve të platformave dhe përdoruesve fundorë për të siguruar që sistemet e AI përmbushin pritshmëritë teknike dhe estetike.