Firma Microsoft wycofała najnowszą aktualizację programu Bing Image Creator, powracając do wcześniejszej wersji modelu DALL-E po powszechnych skargach użytkowników dotyczących obniżonej jakości obrazu.

Aktualizacja z grudnia 2024 r. wprowadziła PR16, nową wersję DALL-E 3 OpenAI, obiecującą szybsze renderowanie i lepszą wierność wizualną. Jednak opinie użytkowników ujawniły znaczące wady w wynikach modelu, co skłoniło firmę Microsoft do przywrócenia poprzedniego modelu PR13 w trakcie badania problemów.

Zasadniczo DALL-E 3 to zaawansowany model generowania obrazów, umożliwiający tworzenie elementów wizualnych na podstawie szczegółowych opisów tekstowych. Integracja DALL-E 3 firmy Microsoft z programem Bing Image Creator umożliwia użytkownikom generowanie niestandardowych wizualizacji bezpośrednio w interfejsie wyszukiwania Bing. System zawiera również funkcje takie jak „ulepszenia”, które nadają priorytet konkretnym żądaniom użytkowników w celu szybszego przetwarzania.

Powiązane: xAI Elona Muska prezentuje potężny obraz sztucznej inteligencji Aurory Generator

PR16: obiecująca aktualizacja, która chybiła celu

Kiedy Microsoft zintegrował PR16 z Bing Image Creator, co położyło nacisk na szybkość i ulepszenia wizualne. Jordi Ribas, wiceprezes korporacyjny ds. wyszukiwania i sztucznej inteligencji firmy Microsoft, wyjaśnił: „wewnętrzne testy porównawcze wykazały, że jakość PR16 jest średnio nieco lepsza” niż PR13. Aktualizacja była częścią wysiłków Microsoftu mających na celu ulepszenie ekosystemu sztucznej inteligencji poprzez integrację zaawansowanych funkcji DALL-E 3 OpenAI.

Pomimo tych twierdzeń doświadczenia użytkowników znacznie odbiegały od zapewnień Microsoftu. Na platformach takich jak Reddit i X (dawniej Twitter) użytkownicy opisywali obrazy wygenerowane przez PR16 jako „pozbawione życia”, „kreskówkowe” i pozbawione szczegółów.

Nie wiem, kogo myślisz, że żartujesz. DALL-E jest obiektywnie gorszy niż kiedykolwiek po tej „aktualizacji” i wyprzedzają Cię inne firmy, takie jak Google. Porównywanie jakości obrazu teraz i zaledwie kilka miesięcy temu to absolutna nowość pic.twitter.com/EdSdk7aign

— na zewnątrz (@ rokcynoksy) 19 grudnia 2024 r.

Konkretne skargi obejmowały prześwietlone obrazy, źle umieszczone tekstury, i nienaturalne odcienie kolorów, takie jak wszechobecne odcienie zieleni. Jeden użytkownik Redditaopisał swoje rozczarowanie, stwierdzając, że model nie odpowiadał już oczekiwaniom, jakie zapewniał wcześniej używany z DALL-E.

Szczególnie wyraźne były problemy związane ze skomplikowanymi elementami wizualnymi, takimi jak wzory koronek i warstwowe ubrania. Użytkownik, który próbował wygenerować postać w stylu anime podkreślono, że PR16 renderował obrazy w znacznie niższej jakości przy użyciu dokładnie tego samego monitu.

Szersze wyzwania związane z renderowaniem w DALL-E 3

Chociaż Microsoft spotkał się z ostrą krytyką za wdrożenie PR16, problemy nie ograniczały się do Kreator obrazów Bing. Od listopada 2024 r. użytkownicy integracji ChatGPT OpenAI z DALL-E 3 zgłaszali podobne błędy renderowania, w tym zniekształcenia kolorów, nieprawidłowe rozmieszczenie tekstur i anomalie oświetlenia.

Obserwacje na forum społeczności OpenAI ujawniają, że problemy te nie mają źródła w samym modelu DALL-E 3, ale w systemach pośrednich odpowiedzialnych za tłumaczenie podpowiedzi użytkownika w instrukcje renderowania.

Powiązane: Generator obrazu Imagen 3 AI firmy Google jest już dostępny w USA

Według szczegółowej analizy przeprowadzonej na forum problemy prawdopodobnie występują wynikają z błędów w szybkim analizowaniu i potokach poleceń. Wydaje się, że system szybkiego tłumaczenia w DALL-E PR16 wprowadza niejasności, które prowadzą do niespójnych wyników.

Na przykład podpowiedzi dotyczące złożonych stylów ubioru, takich jak sukienki w stylu rokoko lub projekty gotyckiej lolity, często skutkują błędnie umieszczonymi wzorami, nieprawidłowe tekstury i odchylenia stylistyczne.

Co ciekawe, problemy te nie są uniwersalne. Platformy takie jak Coze.com, które korzystają z alternatywnego potoku integracji dla DALL-E 3, w dużej mierze uniknęły błędów renderowania obserwowanych w Bing Image Creator i ChatGPT. Ta rozbieżność sugeruje, że problemy leżą w konkretnych systemach pośrednich używanych przez OpenAI i Microsoft, a nie w podstawowym modelu sztucznej inteligencji.

Powiązane: Freepik Mystic bierze udział w Midjourney, Dall-E w Generowanie obrazu AI

Reakcja firmy Microsoft i wycofanie zmian

Uwzględniając opinie użytkowników, firma Microsoft zainicjowała powrót do wersji PR13. Ribas ogłosił decyzję w sprawie X, stwierdzając: „Jeszcze raz dziękuję za opinię i cierpliwość. Udało nam się [odtworzyć] niektóre zgłoszone problemy i planujemy powrót do PR13, dopóki nie będziemy w stanie ich naprawić. Proces wdrażania jest niestety bardzo powolny. Zaczęło się ponad tydzień temu i osiągnięcie 100% zajmie jeszcze 2-3 tygodnie.”

Wycofywanie zostało już częściowo zakończone, a użytkownicy Pro i około 25% wzmocnionych żądań korzystają obecnie z PR13. stopniowe odwracanie odzwierciedla złożoność aktualizacji wielkoskalowych systemów AI, szczególnie w przypadku głęboko zintegrowanych potoków, takich jak te w Bing Image Creator.

Szersze implikacje dla sztucznej inteligencji Wdrożenie

Problemy Microsoftu z PR16 odzwierciedlają podobne wyzwania, przed którymi stoją inni giganci technologiczni przy wdrażaniu zaawansowanych modeli sztucznej inteligencji. Na przykład na początku 2024 r. Google musiał zawiesić funkcje generowania obrazów swojego chatbota Gemini po tym, jak narzędzie dało wyniki obraźliwe na tle rasowym i niedokładne historycznie

Te incydenty uwypuklają nieodłączne trudności w dostosowaniu postępu sztucznej inteligencji do oczekiwań użytkowników, zwłaszcza w przypadku kreatywnych zastosowań, takich jak obraz. generacji.

Systemy sztucznej inteligencji, takie jak DALL-E 3, opierają się na wielu warstwach przetwarzania w celu interpretacji i wykonywania podpowiedzi użytkownika. Chociaż możliwości modelu podstawowego pozostają solidne, wady systemów pośrednich mogą znacząco obniżyć wydajność. Ten przypadek pokazuje, że nawet drobne niedopasowania w potokach szybkiego analizowania lub renderowania mogą skutkować znacznym niezadowoleniem użytkowników.

Jednak wdrożenie PR16 ujawniło wyzwania systemowe w utrzymaniu spójności. Problemy takie jak nieprawidłowe rozmieszczenie tekstur, problemy z wiernością kolorów i oświetleniem artefakty podkreślają delikatną równowagę pomiędzy zwiększeniem szybkości i zapewnieniem dokładności renderowania. Wyzwania te pogłębiają rosnąca złożoność podpowiedzi użytkownika, które często łączą zawiłe opisy stylistyczne i materiałowe.

Chociaż testy porównawcze zapewniają cenny wgląd w wydajność techniczną, aplikacje w świecie rzeczywistym często ujawniają problemy, których wewnętrzne testy nie są w stanie przewidzieć.

Co więcej, rozbieżności między platformami takimi jak Coze.com i Bing Image Creator sugerują, że udoskonalanie systemów pośrednich ma kluczowe znaczenie dla poprawy ogólnej wydajności.

Sprostanie tym wyzwaniom wymaga większej współpracy między programistami, integratorami platform i użytkownikami końcowymi, aby zapewnić, że systemy sztucznej inteligencji spełniają oczekiwania zarówno techniczne, jak i estetyczne.

Categories: IT Info