Microsoft hat sein neuestes Update für Bing Image Creator zurückgesetzt und auf eine frühere DALL-E-Modellversion zurückgegriffen, nachdem sich viele Benutzer über eine verringerte Bildqualität beschwert hatten.
Das Update vom Dezember 2024 führte PR16 ein, eine neue Iteration von OpenAIs DALL-E 3, mit dem Versprechen eines schnelleren Renderings und einer verbesserten visuellen Wiedergabetreue. Das Feedback der Benutzer offenbarte jedoch erhebliche Mängel in den Modellausgaben, was Microsoft dazu veranlasste, das vorherige PR13-Modell wiederherzustellen und gleichzeitig die Probleme zu untersuchen.
Im Kern ist DALL-E 3 ein fortschrittliches Bildgenerierungsmodell, mit dem aus detaillierten Textbeschreibungen visuelle Darstellungen erstellt werden können. Durch die Integration von DALL-E 3 in Bing Image Creator durch Microsoft können Benutzer benutzerdefinierte Grafiken direkt in der Bing-Suchoberfläche erstellen. Das System umfasst auch Funktionen wie „Boosts“, die bestimmte Benutzeranfragen für eine schnellere Verarbeitung priorisieren.
Verwandt: Elon Musks xAI präsentiert den leistungsstarken Aurora AI-Bildgenerator
PR16: Ein vielversprechendes Update, das sein Ziel verfehlte
Trotz dieser Behauptungen unterschieden sich die Benutzererfahrungen erheblich von den Zusicherungen von Microsoft. Auf Plattformen wie Reddit und
Ich weiß nicht, wen Sie damit verarschen wollen. DALL-E ist nach diesem „Update“ objektiv schlechter als je zuvor und Sie werden von anderen Unternehmen wie Google überholt. Es ist absolut Tag und Nacht, wenn man die Bildqualität jetzt mit der vor ein paar Monaten vergleicht pic.twitter.com/EdSdk7aign
– nach außen (@ roccynoxy) 19. Dezember 2024
Zu den spezifischen Beschwerden gehörten überbeleuchtete Bilder, falsch platzierte Texturen, und unnatürliche Farbtöne, wie zum Beispiel durchdringende Grüntöne. Ein Reddit-Benutzer beschrieb seine Enttäuschung mit der Aussage, dass das Modell nicht mehr zu seiner Erfahrung passte zuvor mit DALL-E genossen.
Besonders ausgeprägt waren Probleme mit komplizierten visuellen Elementen wie Lochmustern und mehrlagiger Kleidung. Ein Benutzer, der versucht hat, einen Charakter im Anime-Stil zu generieren hervorgehoben, dass PR16 Bilder mit genau derselben Eingabeaufforderung in viel geringerer Qualität gerendert hat.
Umfassendere Rendering-Herausforderungen mit DALL-E 3
Während Microsoft wegen seiner PR16-Einführung erheblicher Kritik ausgesetzt war, waren die Probleme nicht auf Bing Image Creator beschränkt. Seit November 2024 haben Benutzer der ChatGPT-Integration von OpenAI mit DALL-E 3 ähnliche Rendering-Fehler gemeldet, darunter Farbverzerrungen, Texturfehlplatzierungen und Beleuchtungsanomalien.
Beobachtungen aus dem OpenAI-Community-Forum zeigen, dass diese Probleme nicht im DALL-E 3-Modell selbst, sondern in den Zwischensystemen liegen, die für die Übersetzung von Benutzereingaben in Rendering verantwortlich sind Anweisungen.
Verwandt: Googles Imagen 3 AI Image Generator jetzt in den USA verfügbar
Laut einer detaillierten Analyse im Forum sind die Probleme wahrscheinlich darauf zurückzuführen Fehler beim Parsen von Eingabeaufforderungen und Befehlspipelines. Das Eingabeaufforderungsübersetzungssystem in DALL-E PR16 scheint Mehrdeutigkeiten einzuführen, die zu inkonsistenten Ergebnissen führen.
Beispielsweise führen Eingabeaufforderungen mit komplexen Kleidungsstilen wie Rokoko-Kleidern oder Gothic-Lolita-Designs häufig zu falsch platzierten Mustern. falsche Texturen und stilistische Abweichungen.
Interessanterweise sind diese Probleme nicht universell. Plattformen wie Coze.com, die eine alternative Integrationspipeline für DALL-E 3 verwenden, haben die in Bing Image Creator und ChatGPT beobachteten Rendering-Fehler weitgehend vermieden. Diese Diskrepanz deutet darauf hin, dass die Probleme in den spezifischen Zwischensystemen liegen, die von OpenAI und Microsoft verwendet werden, und nicht im Kern-KI-Modell.
Verwandt: Freepik Mystic Takes on Midjourney, Dall-E in KI-Bilderzeugung
Microsofts Reaktion und das Rollback
In Anerkennung des Benutzerfeedbacks hat Microsoft ein Rollback auf PR13 eingeleitet. Ribas gab die Entscheidung zu X bekannt und erklärte: „Nochmals vielen Dank für das Feedback und die Geduld. Wir konnten einige der gemeldeten Probleme [reproduzieren] und planen, zu PR13 zurückzukehren, bis wir sie beheben können. Der Bereitstellungsprozess ist leider sehr langsam. Es hat vor über einer Woche begonnen und es wird noch zwei bis drei Wochen dauern, bis es 100 % erreicht hat Die allmähliche Umkehrung spiegelt die Komplexität der Aktualisierung großer KI-Systeme wider, insbesondere wenn es um tief integrierte Pipelines wie die in Bing Image Creator geht.
Umfassendere Auswirkungen auf die KI Bereitstellung
Microsofts Schwierigkeiten mit PR16 spiegeln ähnliche Herausforderungen wider, mit denen andere Technologiegiganten bei der Bereitstellung fortschrittlicher KI-Modelle konfrontiert waren. Anfang 2024 musste Google beispielsweise die Bildgenerierungsfunktionen seines Gemini-Chatbots einstellen Das Tool erzeugte rassistisch beleidigende und in der Vergangenheit ungenaue Ergebnisse.
Diese Vorfälle verdeutlichen die inhärenten Schwierigkeiten, KI-Fortschritte mit den Erwartungen der Benutzer in Einklang zu bringen, insbesondere bei kreativen Anwendungen wie Bilderzeugung.
KI-Systeme wie DALL-E 3 verlassen sich auf mehrere Verarbeitungsebenen, um Benutzereingaben zu interpretieren und auszuführen. Während die Fähigkeiten des Kernmodells robust bleiben, können Mängel in Zwischensystemen die Leistung erheblich beeinträchtigen. Der Fall zeigt, dass selbst geringfügige Fehlausrichtungen in den Prompt-Parsing-oder Rendering-Pipelines zu erheblicher Unzufriedenheit der Benutzer führen können.
Die Einführung von PR16 zeigte jedoch systemische Herausforderungen bei der Aufrechterhaltung der Konsistenz. Probleme wie Texturfehlplatzierung, Probleme mit der Farbtreue und Beleuchtung Artefakte verdeutlichen das empfindliche Gleichgewicht zwischen der Verbesserung der Geschwindigkeit und der Gewährleistung der Genauigkeit beim Rendern. Diese Herausforderungen werden durch die zunehmende Komplexität von Benutzeraufforderungen verschärft, die häufig komplizierte Stil-und Materialbeschreibungen kombinieren.
Während Benchmarking wertvolle Einblicke in die technische Leistung liefert, offenbaren reale Anwendungen häufig Probleme, die interne Tests nicht vorhersagen können.
Darüber hinaus legen die Diskrepanzen zwischen Plattformen wie Coze.com und Bing Image Creator nahe, dass die Verfeinerung zwischengeschalteter Systeme für die Verbesserung der Gesamtleistung von entscheidender Bedeutung ist.
Die Bewältigung dieser Herausforderungen erfordert mehr gemeinsame Anstrengungen zwischen Entwicklern, Plattformintegratoren und Endbenutzern, um sicherzustellen, dass KI-Systeme sowohl technische als auch ästhetische Erwartungen erfüllen.