A

Alibaba QWEN csapata elindította a QWEN-IMAGE-szerkesztést, egy új nyílt forráskódú AI modellt, amely közvetlenül kihívja a professzionális szoftvert, mint például az Adobe Photoshop, amelyet a világ kreatív szakembereinek több mint 90%-a használ. Globálisan augusztus 18-án jelent meg, az eszköz lehetővé teszi bárki számára, hogy egyszerű szöveges utasítások segítségével végezze el komplex képszerkesztéseit. Target=”_ üres”> qwen chat , és a fizetett Alibaba Cloud API . Kiemelkedik a szövegek szövegén belüli szövegek megjelenítésében és módosításában mind angol, mind kínai nyelven, ez hagyományosan nehéz feladat az AI számára. Ez a lépés erőteljes, hozzáférhető alternatívát kínál a drága, szabadalmaztatott rendszerekhez. Az új eszköz az erőteljes 20 milliárd paraméterre épül, amely augusztus 4-én debütált. Ez két párhuzamos patakon keresztül dolgozza fel a képeket, hogy egyensúlyba hozza a kreatív szabadságot a vizuális hűséggel. Ez az összetevő kivonja a magas szintű szemantikai tulajdonságokat, lehetővé téve a rendszer számára, hogy megértse a kép jelentését, kontextusát és az objektumok közötti kapcsolatot. Ez szabályozza a szerkesztés „mi”. Ezt a vae-t kifejezetten finoman beillesztették a szöveg-nehéz dokumentumokon, hogy élesítsék a finom részletek rekonstruálásának képességét, biztosítva, hogy a kép által érintett kép egyes részei tökéletesen megőrizzenek. Ez lehetővé teszi a rendszer számára, hogy pontos egyensúlyt teremtsen, és olyan szerkesztéseket készítsen, amelyek-amint az egyik jelentés megjegyezte-hű mind a felhasználó szándékához, mind az eredeti kép megjelenéséhez. Ez az architektúra két különálló és erőteljes szerkesztési módot tesz lehetővé. Ez a jelentős pixel-szintű változásokat lehetővé teszi a teljes vászonban. A gyakorlati alkalmazások magukban foglalják a fotó stílusának megváltoztatását a Studio Ghibli animációhoz hasonlítva, az objektum forgatása egy új nézőpont feltárásához, vagy a teljes hangulatjel-csomagok létrehozása a kabalaból. Ez lehetővé teszi a felhasználók számára az elemek hozzáadását vagy eltávolítását, egyetlen objektum színének megváltoztatását vagy finom fotó retusálását, miközben biztosítja, hogy a környező területek teljesen változatlanok maradjanak. Ahogyan a QWEN csapatkutatója, Junyang Lin megjegyezte: „Ez eltávolíthatja a hajszálat, nagyon finom képmódosítást.”

A kétnyelvű szövegszerkesztés új referenciaértéke

, ahol a Qwen-Image-szerkesztéstől valóban megkülönbözteti az eszközöket. A modell örököli és kiterjeszti elődje, a Qwen-Image Foundation modell erős kétnyelvű megjelenítési képességeit, amelyeket kifejezetten a tipográfia elsajátítására terveztek. Ez lehetővé teszi, hogy pontosan hozzáadja, eltávolítsa vagy módosítsa a szöveget angolul és kínai nyelven is. A standard diffúziós modellek gyakran küzdenek a szöveggel, mert a képeket inkább a pixelek hatalmas mintáiént dolgozják fel, nem pedig szimbolikus karakterként. Ez a koherens helyesírást, a logikai távolságot és a következetes tipográfiát jelentővé teszi, különösen az összetett logográfiai szkriptek, mint a kínai. Az alapítvány modelljét „tanterv-tanulási” megközelítés alkalmazásával képezték ki, kezdve az alapképekkel, mielőtt fokozatosan méreteznénk a bekezdés szintű szöveges leírásait. Ezt egy adatszintézis-csővezeték egészítette ki, amely kiváló minőségű, szövegben gazdag képzési képeket generált, és a modellt a tipográfia szabályai ténylegesen tanítva. A modell lehet fokozatosan finomítják a műalkotást, amíg tökéletes Egy versenypiacon

Alibaba azon döntése, hogy kiadja a Qwen-Image-Edit-et A Engedélyes licenc egyértelmű stratégiai gambit. Ez egy korszerű eszközt szabadon elérhetővé teszi kereskedelmi használatra, közvetlenül alátámasztva a bevált játékosok üzleti modelljeit. Az Adobe nemrégiben támasztotta alá a Photoshopot új Firefly-alapú funkciókkal, mint például a „Harmonize” az objektumok keverésére és a „generatív előkelő” a felbontás javításához. A versenytársak, például a Bytedance és a Black Forest Labs, a képszerkesztési képességekkel rendelkező egyéb hatalmas modellek szintén kialakultak. Az Alibaba nyílt forráskódú megközelítése eltérő, zavaróbb utat képvisel ugyanazon célhoz. Ez követi a referencia-tetejű QWEN3-gondolkodó érvelési modell és a fejlett WAN2.2 videogenerációs modell debütálását. A stratégia célja egy olyan globális fejlesztői közösség ápolása, amely a technológiára építhet, és elősegíti az ökoszisztémát, amely potenciálisan gyorsabban innovációt folytathat, mint a zárt, szabadalmaztatott platformok. Egy Alibaba Cloud szóvivője megerősítette ezt a váltást, elmagyarázva: „Miután megbeszéljük a közösséggel és gondolkodjunk az ügyben, úgy döntöttünk, hogy elhagyjuk a hibrid gondolkodási módot. Most az oktatási és gondolkodási modelleket külön-külön kiképezzük a lehető legjobb minőség elérése érdekében.”A speciális, magas színvonalú, nyitott modellekre való összpontosítás célja egy átfogó ökoszisztéma felépítése, amely ki tudja innoválni a piacon uralkodó zárt rendszereket.

Categories: IT Info