Bytedance sta facendo una spinta concertata nello spazio di generazione di immagini di AI di fascia alta con SeedReam 3.0, un modello sviluppato dal suo team di semi di Bytedance. Presentato come capace sia in cinese che in inglese, SeedReam 3.0 mira esattamente a nomi consolidati come GPT-4o e Midjourney di Openi.
materiali di bytedance affermano che il modello fa sostanziali progressi nella generazione di immagini fotorealistiche, in particolare i ritratti e la gestione di un rendering di testo complessi, fornendo anche output ad alta rosa e tempi più veloci. AN panoramica tecnica ufficiale e a
Un’area in cui SeedReam 3.0 cerca di distinguersi è la tipografia. La documentazione tecnica evidenzia gli sforzi per migliorare la”generazione di tipografia a grana fine”, con i progressi”in particolare per il rendering di testo in personaggi cinesi complicati che è importante per la generazione di tipografia professionale.” Questo è notevole per il pubblico di target bilingue del modello, come rendering accurato, soprattutto di script complessi, rimane una sfida per molte immagini AIS. Bytedance afferma che i test interni mostrano”un tasso di disponibilità di testo al 94% per i personaggi sia cinesi che inglesi, eliminando efficacemente il rendering di testo come un fattore limitante nella generazione di immagini.” Confronti visivi forniti da Bytedance suggeriscono che SeedReam 3.0 gestisce i layout di testi aperti, specialmente con i font cinesi, soprattutto con i modelli di Strong di GPT-4 capacità. Questo focus arriva quando altri nuovi modelli, come la Reve Image 1.0 in modo aggressivo, competono anche in parte sulla qualità del rendering del testo. I miglioramenti nella generazione di ritratti umani realistici sono anche fondamentali per la presentazione di Bytedance, citando”miglioramento del realismo nella generazione di ritratti”. L’obiettivo è quello di produrre immagini con caratteristiche di pelle più naturalistiche, allontanandosi dall’estetica troppo levigata a volte osservata nelle uscite di intelligenza artificiale. Studi sulle preferenze dell’utente a cui si fa riferimento a Bytedance posizionati con il realismo dei ritratti, confrontando bene contro il V7 Alpha di Midjourney (che ha debuttato a breve prima di SeedReam 3.0 emerse). La capacità di SeedReam 3.0 di produrre nativamente immagini fino a una risoluzione 2K (2048 × 2048 pixel) è presentata come fattore che contribuisce a un migliore dettaglio della trama, in contrasto con i modelli che si basano su passaggi di upscaling separati. La dimensione del set di dati di addestramento è stata sostanzialmente aumentata, in parte tramite un approccio”consapevole del difetto”che maschera i difetti dell’immagine minore anziché scartare i dati. Allenamento incorporato risoluzioni miste e tecniche come”corda cross-modalità”(incorporamento della posizione rotativa), un metodo che regola le informazioni di posizione basate sul contesto, qui per migliorare l’immagine di testo. Il modello utilizza anche obiettivi di corrispondenza del flusso e perdita di allineamento della rappresentazione (REPA). Per abbinare meglio le preferenze degli utenti, l’apprendimento del rinforzo ha utilizzato grandi modelli di linguaggio di visione (VLM), ridimensionati fino a oltre 20 miliardi di parametri, come giudici di ricompensa. Si dice che la velocità di generazione tragga beneficio dalle tecniche di accelerazione, abilitando SeedReam 3.0 per produrre un’immagine di risoluzione 1k in circa 3 secondi, secondo Bytedance. I risultati del benchmark iniziale hanno collocato SeedReam 3.0 vicino alla parte superiore di Analisi artificiale Arena Arena Leditore feedback dell’utente precoce
ByteDance suggerisce che SeedEdit offre la preservazione superio Compiti come l’alterazione del testo. Il posizionamento del prodotto SeedEdit si rivolge a applicazioni professionali in fotografia, arte ed e-commerce. Mentre questi progressi sono presentati positivamente, il raggiungimento delle prestazioni rivendicate comporta spesso compromessi, potenzialmente comprese le esigenze computazionali, che diventeranno più chiari con l’adozione più ampia e i test di terze parti.