Microsoft a anulat cea mai recentă actualizare pentru Bing Image Creator, revenind la o versiune anterioară a modelului DALL-E, după plângerile pe scară largă ale utilizatorilor cu privire la calitatea redusă a imaginii.

Actualizarea din decembrie 2024 a introdus PR16, o nouă iterație a DALL-E 3 de la OpenAI, cu promisiuni de randare mai rapidă și fidelitate vizuală îmbunătățită. Cu toate acestea, feedback-ul utilizatorilor a relevat defecte semnificative în rezultatele modelului, ceea ce a determinat Microsoft să restaureze modelul PR13 anterior în timp ce investighează problemele.

În esență, DALL-E 3 este un model avansat de generare de imagini capabil să creeze imagini din descrieri detaliate ale textului. Integrarea de către Microsoft a DALL-E 3 în Bing Image Creator permite utilizatorilor să genereze imagini personalizate direct în interfața de căutare Bing. Sistemul include, de asemenea, funcții precum „boosts”, care acordă prioritate solicitărilor specifice ale utilizatorilor pentru o procesare mai rapidă.

Legate: xAI-ul lui Elon Musk arată puternic Generatorul de imagini Aurora AI

PR16: O actualizare promițătoare care a ratat semnul

Când Microsoft a integrat PR16 în Bing Image Creator, a subliniat viteza și îmbunătățirile vizuale. Jordi Ribas, Microsoft Vicepreședintele corporativ al Căutării și AI, a explicat, „benchmarkingul intern a constatat că calitatea PR16 este în medie puțin mai bună” decât PR13. Actualizarea a făcut parte din eforturile Microsoft de a-și îmbunătăți ecosistemul AI prin integrarea capabilităților avansate din DALL-E 3 de la OpenAI.

În ciuda acestor afirmații, experiențele utilizatorilor s-au diferit semnificativ de asigurările Microsoft. Pe platforme precum Reddit și X (fostul Twitter), utilizatorii au descris imaginile generate de PR16 drept „fără viață”, „desenate” și lipsite de detalii.

Nu știu pe cine crezi că glumiți cu asta. DALL-E este obiectiv mai rău decât a fost vreodată după această „actualizare” și ești depășit de alte companii precum Google. Este absolut zi și noapte să comparăm calitatea imaginii acum cu doar câteva luni în urmă pic.twitter.com/EdSdk7aign

— exterior (@ roccinoxi) 19 decembrie 2024

Plângerile specifice au inclus imagini supra-iluminate, texturi deplasate, și tonuri de culoare nenaturale, cum ar fi nuanțe de verde pervazive. Un utilizator Reddit și-a descris dezamăgirea declarând că modelul nu se mai potrivește cu experiența pe care o avea savurat anterior cu DALL-E.

Problemele cu elemente vizuale complicate, cum ar fi modelele de dantelă și îmbrăcămintea în straturi, au fost deosebit de pronunțate. Un utilizator care a încercat să genereze un personaj în stil anime a evidențiat că PR16 a redat imagini la o calitate mult mai scăzută folosind exact același prompt.

Provocări mai largi de redare cu DALL-E 3

În timp ce Microsoft s-a confruntat cu critici semnificative pentru lansarea PR16, problemele nu au fost izolate pentru Bing Image Creator. Din noiembrie 2024, utilizatorii integrării ChatGPT de la OpenAI cu DALL-E 3 au raportat erori similare de randare, inclusiv distorsiuni de culoare, deplasări greșite ale texturii și anomalii de iluminare.

Observațiile de pe forumul comunității OpenAI arată că aceste probleme nu sunt înrădăcinate în modelul DALL-E 3 în sine, ci în sistemele intermediare responsabile cu traducerea solicitărilor utilizatorilor în instrucțiuni de randare.

Legate: Generatorul de imagini AI de la Google Imagen 3 este acum accesibil în SUA

Conform unei analize detaliate pe forum, este posibil ca problemele să provină de la eșecuri în parsarea promptă și conductele de comandă. Sistemul de traducere promptă din DALL-E PR16 pare să introducă ambiguități care duc la rezultate inconsecvente.

De exemplu, solicitările care implică stiluri de îmbrăcăminte complexe, cum ar fi rochii rococo sau modele gotice Lolita, duc adesea la modele deplasate, texturi incorecte și abateri stilistice.

Interesant, aceste probleme nu sunt universale. Platforme precum Coze.com, care utilizează o conductă alternativă de integrare pentru DALL-E 3, au evitat în mare măsură defectele de redare observate în Bing Image Creator și ChatGPT. Această discrepanță sugerează că problemele se află în sistemele intermediare specifice utilizate de OpenAI și Microsoft, mai degrabă decât în ​​modelul de bază AI.

Legate: Freepik Mystic Takes on Midjourney, Dall-E în Generarea imaginii AI

Răspunsul Microsoft și derularea înapoi

Recunoscând feedback-ul utilizatorilor, Microsoft a inițiat o retragere la PR13. Ribas a anunțat decizia pe X, declarând: „Mulțumesc din nou pentru feedback și răbdare. Am putut [reproduce] unele dintre problemele raportate și intenționăm să revenim la PR13 până le putem remedia. Procesul de implementare este foarte lent, din păcate. A început cu peste o săptămână în urmă și va dura încă 2-3 săptămâni pentru a ajunge la 100%.”

Retrogradarea este deja parțial finalizată, utilizatorii Pro și aproximativ 25% dintre solicitările sporite utilizând acum PR13. revenirea treptată reflectă complexitatea actualizării sistemelor AI la scară largă, în special atunci când se adresează conductelor profund integrate, cum ar fi cele din Bing Image Creator.

Mai larg. Implicații pentru implementarea AI

Luptele Microsoft cu PR16 reflectă provocări similare cu care se confruntă alți giganți ai tehnologiei în implementarea modelelor avansate de AI. De exemplu, la începutul anului 2024, Google a trebuit să suspende generarea de imagini a chatbot-ului său Gemini caracteristici după ce instrumentul a produs rezultate ofensive din punct de vedere rasial și inexacte din punct de vedere istoric

Aceste incidente evidențiază dificultățile inerente de a alinia progresele AI cu așteptările utilizatorilor, în special pentru aplicații creative precum generarea de imagini.

Sistemele AI precum DALL-E 3 se bazează pe mai multe straturi de procesare pentru a interpreta și executa solicitările utilizatorului. În timp ce capacitățile modelului de bază rămân robuste, defectele sistemelor intermediare pot submina semnificativ performanța. Cazul ilustrează faptul că chiar și dezechilibre minore în conductele de analiză sau randare promptă pot duce la o nemulțumire substanțială a utilizatorilor.

Cu toate acestea, lansarea PR16 a dezvăluit provocări sistemice în menținerea coerenței Probleme precum deplasarea greșită a texturii, probleme de fidelitate a culorii și iluminare artefactele evidențiază echilibrul delicat între creșterea vitezei și asigurarea acurateței redării. Aceste provocări sunt agravate de complexitatea tot mai mare a solicitărilor utilizatorilor, care combină adesea descrieri stilistice și materiale complicate.

În timp ce benchmarking-ul oferă informații valoroase asupra performanței tehnice, aplicațiile din lumea reală dezvăluie adesea probleme pe care testarea internă nu le poate prevedea.

În plus, discrepanțele dintre platforme precum Coze.com și Bing Image Creator sugerează că rafinarea sistemelor intermediare este esențială pentru îmbunătățirea performanței generale.

Abordarea acestor provocări necesită mai multe eforturi de colaborare între dezvoltatori, integratori de platforme și utilizatori finali pentru a se asigura că sistemele AI îndeplinesc atât așteptările tehnice, cât și estetice.

Categories: IT Info