gjigandi i teknologjisë kineze Alibaba ka përshkallëzuar garën e gjenerimit të imazhit AI, duke lëshuar një model të ri të fuqishëm me burim të hapur më 4 gusht që shkëlqen në një nga sfidat më të vështira për AI: duke bërë me saktësi tekstin e tekstit.
Lëshuar nën një licencë lejuese Apache 2.0, modeli drejtpërdrejt sfidon sistemet e pronarit perëndimor nga Google dhe Openai. Ai synon t’u sigurojë zhvilluesve një alternativë të lirë, të fuqishme që integron pa probleme tekstin e ndërlikuar me krijimin vizual, një pengesë të gjatë për modelet gjeneruese. Imazhet e AI
në thelbin e tij, qwen-image është një model i fondacionit parametër 20 miliardë i ndërtuar mbi një transformator të difuzionit multimodal (mmdit) arkitekture. Për të interpretuar kërkesat komplekse të përdoruesve, ajo përdor një model të ngrirë QWEN2.5-VL Vizion-gjuha si kodues i gjendjes së tij, një zgjedhje e projektimit që kapitalizon në një model tashmë të aftë në përafrimin e gjuhës dhe të dhënave vizuale. Modeli u trajnua duke përdorur një qasje”mësimore të kurrikulës”, duke filluar me interpretimin themelor jo-tekst para se të shkallëzohej gradualisht për të trajtuar përshkrime komplekse, të nivelit paragraf. Për të përmirësuar më tej trajtimin e tij të karaktereve të rralla dhe shkronjave të ndryshme, ekipi zhvilloi një tubacion të sintezës së të dhënave me shumë faza për të gjeneruar imazhe trajnimi me cilësi të lartë, të pasura me tekst.
Një risi kryesore për redaktimin e imazhit është mekanizmi i kodimit të dyfishtë të modelit. Për të bërë një ndryshim, sistemi përpunon imazhin e hyrjes në dy mënyra: QWEN2.5-VL ekstrakton tipare semantike të nivelit të lartë, ndërsa një autoencoder variacional (Vae) kap detaje rindërtuese të nivelit të ulët, siç detajohet në Raporti Zyrtar Teknik Zyrtar . Vetë Vae ishte rregulluar posaçërisht në një korpus të dokumenteve të rënda me tekst si PDF dhe postera për të mprehur rindërtimin e saj të detajeve të shkëlqyera dhe tekstit të vogël. Ai shkëlqen në vlerësimet e përqendruara në tekst si LongText Bench dhe Benchmark i ri ChineSeWord, duke tejkaluar modelet ekzistuese nga ato që krijuesit e saj e quajnë një”diferencë e rëndësishme”. Kjo performancë e pozicionon atë si një sfidues i fuqishëm me burim të hapur për sistemet kryesore të pronarit. Modeli demonstron performancë të fortë ndër-standarde, duke mbështetur një gamë të gjerë të stileve artistike. Siç është shfaqur në njoftim zyrtar , ai mund të përshtatet në mënyrë të rrjedhshme në kërkesat krijuese, duke prodhuar gjithçka nga skenat fotoreale dhe pikturat impresioniste në estetikën e animeve dhe minimalistët. Të fuqishme, duke mundësuar operacione të përparuara që shkojnë përtej rregullimeve të thjeshta. Raporti teknik tregon modelin e trajtimit të stilit të trajtimit të përshtatshëm, futjen ose heqjen e objektit, dhe madje edhe manipulimin kompleks të pozave të njeriut. Në krahasimet cilësore, Qwen-Image ruan me sukses detaje të shkëlqyera si fillesat e flokëve gjatë ndryshimeve të pozave dhe injekton saktë detajet e veshjeve që ishin errësuar më parë, duke demonstruar një kuptim të sofistikuar të kontekstit. Ekipi Qwen tregon se modeli mund të kryejë një grup të detyrave të të kuptuarit të imazhit përmes kërkesave të thjeshta të redaktimit. Këto përfshijnë zbulimin e objektit, segmentimin semantik, vlerësimin e thellësisë dhe skajit (Canny) dhe sintezën e pamjes së re. Duke i përshtatur këto detyra të perceptimit si forma të redaktimit inteligjent të imazhit, Alibaba po krijon në mënyrë efektive hendekun midis AI që sheh botën dhe AI që e krijon atë. Isshtë lëvizja e fundit në një seri të shpejtë të lëshimeve të mëdha të AI nga Alibaba, duke sinjalizuar një strategji gjithëpërfshirëse për të ndërtuar një suitë të plotë të mjeteve të hapura për zhvilluesit dhe të mbizotërojnë ekosistemin me burim të hapur. Kjo u shoqërua nga një model i fuqishëm i kodimit agjent, QWEN3-Coder. Një zëdhënës tha,”Pasi të diskutojmë me komunitetin dhe të reflektojmë për këtë çështje, ne kemi vendosur të braktisim mënyrën e të menduarit hibrid. Tani do të trajnojmë modelet e instruksionit dhe të menduarit veçmas për të arritur cilësinë më të mirë të mundshme,”duke sqaruar fokusin e ri në sistemet e tij të specializuara, me cilësi të lartë. Kjo lëshim prezantoi një arkitekturë të përparuar të përzierjes së ekspertëve (MOE) për të përmirësuar cilësinë dhe efikasitetin e videos. Vetëm disa javë më parë, një studim pretendoi se modeli më i vjetër i Alibaba QWEN2.5 kishte”mashtruar”në një test kryesor të matematikës duke memorizuar përgjigjet nga të dhënat e kontaminimit të trajnimit. Siç vuri në dukje strategu i AI, Nate Jones,”në momentin që ne vendosëm mbizotërimin e drejtuesit si qëllim, ne rrezikojmë të krijojmë modele që shkëlqejnë në ushtrime të parëndësishme dhe flakërojnë kur përballemi me realitetin”. Ky ndjenjë është bërë jehonë nga ekspertë si Sara Hooker, kreu i Chere Labs, i cili argumentoi se”kur një tabelë drejtuese është e rëndësishme për një ekosistem të tërë, stimujt janë në përputhje që ai të jetë i dobët.”
href=”https://huggingface.co/qwen/qwen-image”target=”_ bosh”> shërbime të botës reale dhe risi të hapur .
Kjo strategji e ofrimit të alternativave të fuqishme, falas, sfidon drejtpërdrejt modelet e mbyllura, pronësore që mbizotërojnë në fundin e lartë të tregut. Ai përshkallëzon konkurrencën dhe pasqyron një bast që një ekosistem i hapur do të nxisë inovacionin më të shpejtë dhe adoptimin më të gjerë.