Microsoft ha ripristinato il suo ultimo aggiornamento di Bing Image Creator, ripristinando una versione precedente del modello DALL-E dopo le diffuse lamentele degli utenti sulla ridotta qualità dell’immagine.
L’aggiornamento di dicembre 2024 ha introdotto PR16, una nuova iterazione di DALL-E 3 di OpenAI, con la promessa di un rendering più veloce e una migliore fedeltà visiva. Tuttavia, il feedback degli utenti ha rivelato difetti significativi nei risultati del modello, spingendo Microsoft a ripristinare il precedente modello PR13 mentre indagava sui problemi.
Sostanzialmente, DALL-E 3 è un modello avanzato di generazione di immagini in grado di creare immagini da descrizioni di testo dettagliate. L’integrazione di DALL-E 3 da parte di Microsoft in Bing Image Creator consente agli utenti di generare elementi visivi personalizzati direttamente nell’interfaccia di ricerca di Bing. Il sistema include anche funzionalità come i”boost”, che danno priorità alle richieste specifiche degli utenti per un’elaborazione più rapida.
PR16: un aggiornamento promettente che non ha colto l’obiettivo
Quando Microsoft ha integrato PR16 in Bing Image Creator, ha enfatizzato la velocità e i miglioramenti visivi Jordi Ribas, vicepresidente aziendale di Microsoft di ricerca e intelligenza artificiale, ha spiegato,”il benchmark interno ha rilevato che la qualità di PR16 è in media leggermente migliore”rispetto a PR13. L’aggiornamento faceva parte degli sforzi di Microsoft per migliorare il proprio ecosistema AI integrando funzionalità avanzate di DALL-E 3 di OpenAI.
Nonostante queste affermazioni, le esperienze degli utenti divergevano in modo significativo dalle assicurazioni di Microsoft. Su piattaforme come Reddit e X (ex Twitter), gli utenti hanno descritto le immagini generate da PR16 come”senza vita”,”da cartone animato”e prive di dettagli.
Non so chi pensi di prendere in giro con questo. DALL-E è oggettivamente peggiore di quanto non sia mai stato dopo questo”aggiornamento”e sei stato superato da altre aziende come Google. È assolutamente giorno e notte confrontare la qualità delle immagini adesso con solo un paio di mesi fa pic.twitter.com/EdSdk7aign
— verso l’esterno (@ roccinossi) 19 dicembre 2024
Reclami specifici includevano immagini eccessivamente illuminate, texture fuori posto, e tonalità di colore innaturali, come tonalità verdi pervasive. Un utente Reddit ha descritto il proprio disappunto affermando che il modello non corrispondeva più all’esperienza che avevano apprezzato in precedenza con DALL-E.
I problemi con elementi visivi complessi, come motivi di pizzo e abiti a strati, erano particolarmente pronunciati. Un utente che ha tentato di generare un personaggio in stile anime ha evidenziato che PR16 ha eseguito il rendering delle immagini con una qualità molto inferiore utilizzando esattamente lo stesso prompt.
Sfide di rendering più ampie con DALL-E 3
Sebbene Microsoft abbia dovuto affrontare critiche significative per il lancio del PR16, i problemi non sono stati limitati a Bing Image Creator. Da novembre 2024, gli utenti dell’integrazione ChatGPT di OpenAI con DALL-E 3 hanno segnalato errori di rendering simili, tra cui distorsioni di colore, posizionamenti errati delle texture e anomalie di illuminazione.
Le osservazioni del forum della comunità OpenAI rivelano che questi problemi non sono radicati nel modello DALL-E 3 stesso ma nei sistemi intermedi responsabili della traduzione dei prompt dell’utente in rendering istruzioni.
Secondo un’analisi dettagliata sul forum, i problemi probabilmente derivano da errori nell’analisi tempestiva e nelle pipeline di comando. Il sistema di traduzione rapida in DALL-E PR16 sembra introdurre ambiguità che portano a risultati incoerenti.
Ad esempio, i suggerimenti che coinvolgono stili di abbigliamento complessi, come abiti rococò o modelli Gothic Lolita, spesso danno luogo a modelli fuori luogo, texture errate e deviazioni stilistiche.
È interessante notare che questi problemi non sono universali. Piattaforme come Coze.com, che utilizzano una pipeline di integrazione alternativa per DALL-E 3, hanno ampiamente evitato i difetti di rendering osservati in Bing Image Creator e ChatGPT. Questa discrepanza suggerisce che i problemi risiedono negli specifici sistemi intermedi utilizzati da OpenAI e Microsoft, piuttosto che nel modello di intelligenza artificiale principale.
La risposta di Microsoft e il rollback
Riconoscendo il feedback degli utenti, Microsoft ha avviato un rollback a PR13. Ribas ha annunciato la decisione su X, affermando: “Grazie ancora per il feedback e la pazienza. Siamo stati in grado di [riprodurre] alcuni dei problemi segnalati e prevediamo di tornare al PR13 finché non saremo riusciti a risolverli. Sfortunatamente, il processo di distribuzione è molto lento. È iniziato più di una settimana fa e ci vorranno altre 2-3 settimane per arrivare al 100%..”
Il ripristino è già parzialmente completo, con gli utenti Pro e circa il 25% delle richieste potenziate che ora utilizzano PR13. un’inversione graduale riflette le complessità dell’aggiornamento dei sistemi di intelligenza artificiale su larga scala, soprattutto quando si affrontano pipeline profondamente integrate come quelle di Bing Image Creator.
Implicazioni più ampie per l’intelligenza artificiale Distribuzione
Le difficoltà di Microsoft con PR16 fanno eco a sfide simili affrontate da altri giganti della tecnologia nell’implementazione di modelli di intelligenza artificiale avanzati. Ad esempio, all’inizio del 2024, Google ha dovuto sospendere le funzionalità di generazione di immagini del suo chatbot Gemini dopo la crisi. lo strumento ha prodotto risultati offensivi dal punto di vista razziale e storicamente imprecisi.
Questi incidenti evidenziano le difficoltà intrinseche di allineare i progressi dell’intelligenza artificiale con le aspettative degli utenti, in particolare per applicazioni creative come l’immagine. generazione.
I sistemi di intelligenza artificiale come DALL-E 3 si affidano a più livelli di elaborazione per interpretare ed eseguire le richieste dell’utente. Sebbene le capacità del modello principale rimangano solide, i difetti nei sistemi intermedi possono compromettere significativamente le prestazioni. Il caso dimostra che anche piccoli disallineamenti nell’analisi tempestiva o nelle pipeline di rendering possono provocare una sostanziale insoddisfazione degli utenti.
Tuttavia, il lancio di PR16 ha rivelato sfide sistemiche nel mantenere la coerenza. Problemi come il posizionamento errato delle texture, problemi di fedeltà dei colori e illuminazione. gli artefatti evidenziano il delicato equilibrio tra l’aumento della velocità e la garanzia della precisione nel rendering. Queste sfide sono esacerbate dalla crescente complessità dei suggerimenti utente, che spesso combinano intricate descrizioni stilistiche e materiali.
Mentre il benchmarking fornisce preziose informazioni sulle prestazioni tecniche, le applicazioni del mondo reale spesso rivelano problemi che i test interni non possono prevedere.
Inoltre, le discrepanze tra piattaforme come Coze.com e Bing Image Creator suggeriscono che il perfezionamento dei sistemi intermedi è fondamentale per migliorare le prestazioni complessive.
Affrontare queste sfide richiede maggiori sforzi di collaborazione tra sviluppatori, integratori di piattaforme e utenti finali per garantire che i sistemi di intelligenza artificiale soddisfino le aspettative sia tecniche che estetiche.