A Microsoft visszaállította a Bing Image Creator legújabb frissítését, és visszatért egy korábbi DALL-E modellverzióhoz, miután széles körben panaszkodtak a gyengébb képminőségről.
A 2024. decemberi frissítés bemutatta a PR16-ot, az OpenAI DALL-E 3 új iterációját, amely gyorsabb renderelést és jobb vizuális hűséget ígér. A felhasználói visszajelzések azonban jelentős hibákat tártak fel a modell kimeneteiben, ami arra késztette a Microsoftot, hogy visszaállítsa a korábbi PR13-as modellt a problémák kivizsgálása közben.
Lényegében a DALL-E 3 egy fejlett képgeneráló modell, amely képes látványelemek létrehozására részletes szöveges leírásokból. A DALL-E 3 Microsoft által a Bing Image Creator programba való integrálása lehetővé teszi a felhasználók számára, hogy közvetlenül a Bing keresőfelületén belül hozzanak létre egyéni látványelemeket. A rendszer olyan funkciókat is tartalmaz, mint a „fokozások”, amelyek a gyorsabb feldolgozás érdekében prioritást adnak a konkrét felhasználói kéréseknek.
Kapcsolódó: Elon Musk xAI bemutatása Erőteljes Aurora AI képgenerátor
PR16: Ígéretes frissítés, amely elmulasztotta a jelet
Amikor a Microsoft integrálta a PR16-ot a Bing Image Creatorba, amely a sebességet és a vizuális fejlesztéseket emelte ki. Jordi Ribas, A Microsoft keresésért és mesterséges intelligenciáért felelős vállalati alelnöke kifejtette: „a belső benchmarking a PR16 minőségét átlagosan valamivel jobbnak találta”, mint a PR13-nál. A frissítés része volt a Microsoft azon erőfeszítéseinek, hogy javítsa mesterséges intelligencia ökoszisztémáját az OpenAI DALL-E 3 fejlett képességeinek integrálásával.
Ezen állítások ellenére a felhasználói élmények jelentősen eltértek a Microsoft biztosítékaitól. Az olyan platformokon, mint a Reddit és az X (korábban Twitter), a felhasználók a PR16 által generált képeket „élettelennek”, „rajzfilmszerűnek” és hiányosnak minősítették.
Nem tudom, hogy szerinted kivel viccelsz. A DALL-E objektíve rosszabb, mint valaha volt e „frissítés” után, és Önt lekörözik más cégek, például a Google. Teljesen éjjel-nappal összehasonlítani a képminőséget a pár hónappal ezelőtti képminőséggel pic.twitter.com/EdSdk7aign
– kifelé (@ roccinoxi) 2024. december 19.
Konkrét panaszok között szerepelt a túlvilágított képek, a rosszul elhelyezett textúrák, és természetellenes színtónusok, például átható zöld árnyalatok. Az egyik Reddit-felhasználó csalódottságát azzal jellemezte, hogy a modell már nem felel meg az általuk tapasztaltnak korábban a DALL-E-vel.
Különösen szembetűnőek voltak a bonyolult vizuális elemekkel, mint például a csipkemintákkal és a réteges ruházattal kapcsolatos problémák. Egy felhasználó, aki megpróbált létrehozni egy anime stílusú karaktert kiemelte, hogy a PR16 sokkal gyengébb minőségben jelenítette meg a képeket pontosan ugyanazzal a felszólítással.
Tágabb megjelenítési kihívások a DALL segítségével-E 3
Bár a Microsoftot jelentős kritikák érte a PR16 bevezetése miatt, a problémák nem elszigeteltek a Bing Image Creatorhoz. 2024 novembere óta az OpenAI ChatGPT DALL-E 3-mal való integrációjának felhasználói hasonló renderelési hibákról számoltak be, beleértve a színtorzulásokat, a textúrák helytelen elhelyezését és a megvilágítási rendellenességeket.
Az OpenAI közösségi fórum megfigyelései azt mutatják, hogy ezek a problémák nem magában a DALL-E 3 modellben gyökereznek, hanem a köztes rendszerekben, amelyek felelősek a felhasználói üzenetek fordításáért renderelési utasítások.
Kapcsolódó: A Google Imagen 3 AI képgenerátora már elérhető az Egyesült Államokban
A fórumon végzett részletes elemzés szerint a problémák valószínűleg abból adódnak a prompt elemzési és parancsfolyamatok hibáitól. Úgy tűnik, hogy a DALL-E PR16 azonnali fordítási rendszere kétértelműségeket okoz, amelyek következetlen kimenetekhez vezetnek.
Például az összetett ruházati stílusokat, például rokokó ruhákat vagy gótikus Lolita mintákat tartalmazó felszólítások gyakran rosszul elhelyezett mintákat eredményeznek, helytelen textúrák és stílusbeli eltérések.
Érdekes módon ezek a problémák nem általánosak. Az olyan platformok, mint a Coze.com, amelyek alternatív integrációs folyamatot használnak a DALL-E 3-hoz, nagyrészt elkerülték a Bing Image Creatorban és a ChatGPT-ben megfigyelt renderelési hibákat. Ez az eltérés arra utal, hogy a problémák az OpenAI és a Microsoft által használt specifikus köztes rendszerekben rejlenek, nem pedig az alapvető mesterséges intelligencia modellben.
Kapcsolódó: Freepik Mystic Takes on Midjourney, Dall-E in AI képgenerálás
A Microsoft válasza és a visszaállítás
A felhasználói visszajelzések elismeréseként a Microsoft elindított egy visszaállítás PR13-ra. Ribas bejelentette az X-ről szóló döntését, és kijelentette: „Még egyszer köszönjük a visszajelzést és a türelmet. Sikerült [reprodukálni] a jelentett problémák egy részét, és azt tervezzük, hogy visszatérünk a PR13-hoz, amíg meg nem tudjuk javítani őket. A telepítési folyamat sajnos nagyon lassú. Több mint egy hete kezdődött, és további 2-3 hét kell, amíg eléri a 100%-ot.”
A visszaállítás már részben befejeződött, a Pro-felhasználók és a megnövelt kérések körülbelül 25%-a már PR13-at használ. A fokozatos visszaállítás a nagyszabású AI-rendszerek frissítésének bonyolultságát tükrözi, különösen akkor, ha olyan mélyen integrált folyamatokkal foglalkozik, mint a Bing Image Creatorban.
Broader. A mesterséges intelligencia bevezetésének következményei
A Microsoft PR16-tal való küzdelme hasonló kihívásokat jelent, amelyekkel más technológiai óriások is szembesülnek a fejlett AI-modellek bevezetésekor jellemzők, miután az eszköz fajilag sértő és történelmileg pontatlan eredményeket hozott létre nehézségekbe ütközik az AI fejlesztések és a felhasználói elvárások összehangolása, különösen az olyan kreatív alkalmazásoknál, mint a képgenerálás.
Az olyan mesterséges intelligencia rendszerek, mint a DALL-E 3, több rétegű feldolgozásra támaszkodnak a felhasználói utasítások értelmezéséhez és végrehajtásához. Bár az alapmodell képességei robusztusak maradnak, a köztes rendszerek hibái jelentősen alááshatják a teljesítményt. Az eset azt szemlélteti, hogy a folyamatok azonnali elemzése vagy megjelenítése során még a kisebb igazítási hibák is jelentős felhasználói elégedetlenséget okozhatnak.
A PR16 bevezetése azonban rendszerszintű kihívásokat tárt fel a konzisztencia megőrzése terén. A műtermékek kiemelik a finom egyensúlyt a sebesség növelése és a renderelés pontosságának biztosítása között. Ezeket a kihívásokat tovább súlyosbítja a felhasználói felszólítások egyre összetettebbé válása, amelyek gyakran bonyolult stílus-és anyagleírásokat kombinálnak.
Míg a teljesítményértékelés értékes betekintést nyújt a műszaki teljesítménybe, a valós alkalmazások gyakran olyan problémákat tárnak fel, amelyeket a belső tesztelés nem tud előre jelezni.
Továbbá az olyan platformok közötti eltérések, mint a Coze.com és a Bing Image Creator, arra utalnak, hogy a köztes rendszerek finomítása kritikus fontosságú a fejlesztés szempontjából. általános teljesítményt.
Ezeknek a kihívásoknak a megoldásához több együttműködési erőfeszítésre van szükség a fejlesztők, a platformintegrátorok és a végfelhasználók között annak biztosítása érdekében, hogy az AI-rendszerek megfeleljenek mind a műszaki, mind az esztétikai elvárásoknak.