A kínai technológiai óriás, az Alibaba augusztus 4-én egy hatalmas, új nyílt forráskódú modellt adott ki, amely az AI egyik legnehezebb kihívásánál kiemelkedik: Pontosan megjelenítő szöveget.

Megengedett Apache 2.0 licenc alatt kiadott modell közvetlenül kihívja a Google és az Openai védett nyugati rendszereit. Célja, hogy a fejlesztőknek egy ingyenes, erőteljes alternatívát biztosítson, amely zökkenőmentesen integrálja a bonyolult szöveget a vizuális létrehozással, egy régóta kitérrel a generációs modellek számára. AI képek

a magjában, qwen-kép egy multimodális diffúziós átalakítóra (MMDit) építészetre épül. A komplex felhasználói utasítások értelmezéséhez egy fagyasztott QWEN2.5-VL látás-nyelvi modellt használ fel, mint állapotkódolóként, egy olyan tervválasztékot, amely a nyelv és a vizuális adatok összehangolására már hozzáigazító modellt kihasználja. A modellt egy „tanterv-tanulás” megközelítés alkalmazásával kiképezték, kezdve az alapvető nem szöveges megjelenítéssel, mielőtt fokozatosan méreteznénk a komplex, bekezdés szintű leírásait. A ritka karakterek és a változatos betűtípusok kezelésének további javítása érdekében a csapat kifejlesztett egy többlépcsős adatszintézisvezetéket, hogy kiváló minőségű, szövegben gazdag képzési képeket generáljon. A változtatás érdekében a rendszer kétféle módon dolgozza fel a bemeneti képet: A QWEN2.5-VL kivonja a magas szintű szemantikai tulajdonságokat, míg a variációs autoencoder (VAE) alacsony szintű rekonstrukciós részleteket rögzít, a Hivatalos műszaki jelentés . Maga a VAE-t kifejezetten finoman beillesztették a szöveges nehéz dokumentumok, például a PDF-ek és a plakátok, a finom részletek és a kis szövegek rekonstrukciójának élesítésére. Kitűnő a szövegközpontú értékeléseknél, mint például a LongText-Sench és az új chineseword referenciaérték, amely felülmúlja a meglévő modelleket azzal, amit alkotói „jelentős marginnak” hívnak. Ez a teljesítmény azt jelenti, hogy egy hatalmas nyílt forráskódú kihívás a vezető védett rendszerek számára. A modell erős kereszt-benchmark teljesítményt mutat be, a művészi stílusok széles skáláját támogatva. Amint azt a hivatalos bejelentés című részben mutatják be, a kreatív utasításokhoz és az edző capitikákhoz és az impresszionistákhoz való esélyegyenlőségig terjedő, a minimalista tervezésekhez. lehetővé téve a fejlett műveleteket, amelyek messze meghaladják az egyszerű kiigazításokat. A műszaki jelentés a modell megfelelő kezelési stílusátvitelét, az objektum beillesztését vagy eltávolítását, sőt összetett emberi póz manipulációt mutatja be. A kvalitatív összehasonlítások során a Qwen-Image sikeresen megőrzi a finom részleteket, mint például a hajszálak a pózváltozások során, és helyesen vonja be a korábban eltakarított ruházati részleteket, és bemutatja a kontextus kifinomult megértését. A QWEN csapata megmutatja, hogy a modell egyszerű szerkesztési utasítások révén képes végrehajtani a képmegértési feladatokat. Ide tartoznak az objektumdetektálás, a szemantikai szegmentálás, a mélység és az él (canny) becslése, valamint az új nézet-szintézis. Azáltal, hogy ezeket az észlelési feladatokat intelligens képszerkesztés formájaként fogalmazza meg, az Alibaba ténylegesen áthidalja az AI közötti rést, amely látja a világot, és az AI, amely azt létrehozza. Ez a legújabb lépés az Alibaba-tól származó nagy AI-kiadások gyors tűz sorozatában, amely átfogó stratégiát jelez a fejlesztők számára nyitott eszközök teljes csomagjának felépítésére, és uralja a nyílt forráskódú ökoszisztémát. Ezt egy hatalmas ügynöki kódolási modell, a QWEN3-Coder kísérte. A szóvivő azt mondta: „Miután megbeszéljük a közösséggel és gondolkodjunk az ügyben, úgy döntöttünk, hogy elhagyjuk a hibrid gondolkodási módot. Most külön kiképezzük az oktatási és gondolkodási modelleket, hogy elérjük a lehető legjobb minőséget.”Az új fókuszt a speciális, kiváló minőségű rendszerekre összpontosítva. Ez a kiadás fejlett szakértők (MOE) architektúrát vezetett be a videó minőségének és hatékonyságának javítása érdekében. Néhány héttel ezelőtt egy tanulmány azt állította, hogy az Alibaba régebbi QWEN2.5 modellje „megcsalt” egy kulcsfontosságú matematikai teszten, a szennyezett edzési adatok válaszai memorizálásával. Ahogyan Nate Jones, az AI stratégia megjegyezte: „Abban a pillanatban, amikor a ranglistán dominanciát a célként állítjuk be, kockáztatunk olyan modellek létrehozását, amelyek kitűnőek a triviális gyakorlatokban, és lepattannak, amikor a valósággal szembesülünk.”Ezt az érzést olyan szakértők visszhangzik, mint Sara Hooker, a Cohere Labs vezetője, aki azt állította, hogy „ha egy ranglistán fontos egy egész ökoszisztéma számára, az ösztönzők igazodnak ahhoz, hogy ez megnevezze. href=”https://huggingface.co/qwen/qwen-image”cél=”_ üres”> Real-world segédprogram és nyitott innováció . Fokozódik a versenyen, és tükrözi azt a tétet, hogy a nyílt ökoszisztéma elősegíti a gyorsabb innovációt és a szélesebb körű örökbefogadást.

Categories: IT Info