A
bydedance összehangolt lendületet ad a csúcskategóriás AI képgenerációs térbe a SeedReam 3.0-val, a ByDedance Seed csapata által kifejlesztett modellvel. A kínai és az angol nyelven képesekként bemutatva a SeedReam 3.0 egyértelműen olyan létrehozott nevekre irányul, mint az Openai GPT-4O és a MidJourney. Egy hivatalos műszaki áttekintés és a megfelelő papír the Underys the Under Division. Elkezdte a Bytedance doubao chat platform és a Jimeng Creation Tool eszközének bevezetését 2025 április elején; Maga a Doubao egy jelentős elosztócsatorna, amely márciusra várja a 100 millió havi aktív felhasználót, és nagy potenciális közönséget hoz létre, elsősorban Kínában. Generation
Az egyik terület, ahol a SeedReam 3.0 megkülönbözteti magát, a tipográfia. A műszaki dokumentáció kiemeli a „finom szemcsés tipográfia-generáció” javítására irányuló erőfeszítéseket, amelyek az előrelépésekkel „különösen a bonyolult kínai karakterek szöveg-adására, amely fontos a professzionális tipográfia generációja szempontjából.”
Ez a modell kétnyelvű célközönségének figyelemre méltó, mint a pontos megjelenítés, különös tekintettel a komplex forgatókönyvekre, továbbra is sok kép AIS kihívása. A Bydedance állítása szerint a belső tesztek „94%-os szöveg elérhetőségét mutatják mind a kínai, mind az angol karakterek számára, hatékonyan kiküszöbölve a szöveges megjelenítést, mint a képtermelés korlátozó tényezőjét.” képességek. Ez a hangsúly más új modellekként érkezik, mint például az agresszív árú Reve Image 1.0, szintén versenyeznek a szöveges megjelenítés minőségén. A cél az, hogy képeket készítsen naturalisztikusabb bőrjellemzőkkel, elmozdulva a túlságosan simított esztétikától, amelyet néha az AI kimenetekben láttak. A SeedReam 3.0 képeket 2K felbontásig (2048 × 2048 pixel) a képek natív módon történő kidolgozására adják, mint hozzájárulási tényezőt a jobb textúra részleteihez, ellentétben azokkal a modellekkel, amelyek külön-külön felfelé mutató lépésekre támaszkodnak. Az edzési adatkészlet méretét jelentősen megnövelték, részben egy „hibás tudatos” megközelítésen keresztül, amely a kisebb képhibákat maszkolja, ahelyett, hogy az adatokat eldobnák. A modell az áramlási illesztési célokat és a reprezentációs igazítás elvesztését (REPA) is használja. A felhasználói preferenciák jobb összehangolása érdekében a megerősítés tanulását nagy látásnyelv-modelleket (VLM) használták fel, amely több mint 20 milliárd paraméterre méretezve, mint jutalombírók. A kezdeti benchmark eredmények a 3.0 SeedRam 3.0-ot helyezték el a Korai felhasználói visszajelzés Megjegyezte a kezdeti szabad rendelkezésre állását és a stílusos tartományt, de a referenciakép hiánya, például a referencia-bemenet hiánya. A Generator a Seedit 1.6, egy olyan eszköz, amely lehetővé teszi a szöveg-proppt-alapú képszerkesztést, beleértve a szövegek kezelését a képeken belül. hivatalosan úgy jellemezve, hogy a t2i vetőmagra épült , a Chatgpt-be integrált funkciókkal versenyez a GPT-4O-n keresztül. olyan feladatok, mint a szöveges megváltoztatás. A SeedEdit termék pozicionálása professzionális alkalmazásokat céloz meg a fényképezés, a művészet és az e-kereskedelem területén. Noha ezeket az előrelépéseket pozitívan mutatják be, az állítólagos teljesítmény elérése gyakran kompromisszumokat foglal magában, beleértve a számítási igényeket is, amelyek szélesebb körű örökbefogadással és harmadik fél tesztelésével világosabbá válnak.