Ang
bytedance ay gumagawa ng isang pinagsama-samang pagtulak sa high-end na puwang ng henerasyon ng imahe ng AI na may Seedream 3.0, isang modelo na binuo ng koponan ng binhi ng bytedance. Iniharap bilang may kakayahang parehong Tsino at Ingles, ang Seedream 3.0 ay naglalayong squarely sa mga itinatag na pangalan tulad ng Openai’s GPT-4O at midjourney. Isang opisyal na pangkalahatang-ideya ng teknikal at isang Ang modelo ay nagsimulang lumiligid sa bytedance’s doubao chat platform at tool ng paglikha ng Jimeng noong unang bahagi ng Abril 2025; Ang Doubao mismo ay isang makabuluhang channel sa pamamahagi, na malapit na 100 milyong buwanang aktibong gumagamit sa buong mundo sa pamamagitan ng Marso, na nagtatag ng isang malaking potensyal na madla lalo na sa China. Ang henerasyon
Ang teknikal na dokumentasyon ay nagtatampok ng mga pagsisikap upang mapagbuti ang”fine-grained typography generation,”na may mga pagsulong”lalo na para sa pag-render ng teksto sa mga kumplikadong mga character na Tsino na mahalaga sa propesyonal na henerasyon ng typography.”Ang pag-aangkin ng Bytedance ay nagpapakita ng mga panloob na pagsubok na nagpapakita ng”isang 94% rate ng pagkakaroon ng teksto para sa parehong mga character na Tsino at Ingles, na epektibong tinanggal ang pag-render ng teksto bilang isang paglilimita sa kadahilanan ng imahe.”
kakayahan. Ang pokus na ito ay dumating habang ang iba pang mga bagong modelo, tulad ng agresibong presyo ng Reve Image 1.0, ay nakikipagkumpitensya din sa bahagi sa kalidad ng pag-render ng teksto. Ang layunin ay upang makabuo ng mga imahe na may higit na naturalistic na mga tampok ng balat, na lumayo mula sa labis na na-smoothed aesthetic na kung minsan ay nakikita sa mga output ng AI. Ang kakayahan ng Seedream 3.0 sa katutubong mga imahe ng output hanggang sa 2K na resolusyon (2048 × 2048 na mga piksel) ay ipinakita bilang isang kadahilanan na nag-aambag upang mas mahusay na detalye ng texture, na pinaghahambing sa mga modelo na umaasa sa hiwalay na mga hakbang sa pag-aalsa. Ang laki ng pagsasanay sa dataset ay malaki ang nadagdagan, na bahagyang sa pamamagitan ng isang”depekto-kamalayan”na diskarte na mask ang mga menor de edad na mga flaws ng imahe sa halip na itapon ang data. Gumagamit din ang modelo ng mga layunin ng pagtutugma ng daloy at pagkawala ng pagkakahanay ng representasyon (REPA). Upang mas mahusay na tumugma sa mga kagustuhan ng gumagamit, ang pag-aaral ng pampalakas ay gumagamit ng mga malalaking modelo ng wikang pangitain (VLMS), na naitala hanggang sa higit sa 20 bilyong mga parameter, bilang mga hukom ng gantimpala. Ang mga paunang resulta ng benchmark ay naglagay ng seedream 3.0 malapit sa tuktok ng artipisyal na pagsusuri ng arena ng kagustuhan ng gumagamit Malakas na mga resulta, ang independiyenteng pag-verify sa iba’t ibang mga senyas ay kinakailangan. maagang feedback ng gumagamit Nabanggit ang paunang libreng pagkakaroon at stylistic range ngunit din ang paglulunsad ng mga limitasyon tulad ng kakulangan ng sanggunian ng imahe. Ang Generator ay Seeditit 1.6, isang tool na nagpapagana ng pag-edit ng imahe na batay sa teksto, kabilang ang pagmamanipula ng teksto sa loob ng mga imahe. Officially described as built on the Seed T2I model, it competes with features integrated into ChatGPT via GPT-4o.
ByteDance suggests SeedEdit offers superior preservation of the original image’s characteristics during modifications compared to GPT-4o, particularly for complex mga gawain tulad ng pagbabago ng teksto. Target ng pagpoposisyon ng produkto ng SeedEdit ang mga propesyonal na aplikasyon sa pagkuha ng litrato, sining, at e-commerce. Habang ang mga pagsulong na ito ay ipinakita nang positibo, ang pagkamit ng inaangkin na pagganap ay madalas na nagsasangkot ng mga trade-off, na potensyal na kabilang ang mga kahilingan sa computational, na magiging mas malinaw sa mas malawak na pag-aampon at pagsubok ng third-party.