Zespół
Alibaba Qwen uruchomił QWen-Image-Edit, nowy model AI open source, który bezpośrednio kwestionuje profesjonalne oprogramowanie, takie jak Adobe Photoshop, z którego korzysta ponad 90% kreatywnych profesjonalistów na świecie. Wydany globalnie 18 sierpnia narzędzie pozwala każdemu wykonywać złożone edycje obrazów za pomocą prostych podpowiedzi tekstowych.
Model jest dostępny na platformach takich jak qwen Chat i przez zapłacono Alibaba Cloud API . Wyróżnia się w renderowaniu i modyfikowaniu tekstu w obrazach zarówno w języku angielskim, jak i chińskim, tradycyjnie trudnym zadaniem dla ai.
, zapewniając to potężne narzędzie za darmo pod licencją commerci-friendly apache 2.0, alibaba is eastraluje konkurs w eskalacyjnym konkursie w eskalującym konkursie w zakresie eskalacyjnym Alibaba. rynek. Ten ruch oferuje silną, dostępną alternatywę dla drogich, zastrzeżonych systemów.
podwójne kodowanie odblokowuje edycje semantyczne i wygląd
Nowe narzędzie opiera się na potężnym modelu fundamentu 20-miliardowego parametru QWen-Image, który zadebiutował w stylu 4 sierpnia. href=”https://qianwen-res.oss-cn-beijing.aliyuncs.com/qwen-image/qwen_image.pdf”target=”_ blank”> architektura podwójnego inkodowania która przetwarza obrazy przez dwa równoległe strumienie, aby zrównoważyć twórczą swobodę wizualną. Model wizji qwen2.5-VL. Ten komponent wyodrębnia cechy semantyczne na wysokim poziomie, umożliwiając systemowi zrozumienie znaczenia, kontekstu obrazu i związku między obiektami. Reguluje to „co” z edycji.
Jednocześnie drugi strumień wykorzystuje wariational autoencoder (VAE) do przechwytywania szczegółów rekonstrukcyjnych na niskim poziomie. Ten VAE został specjalnie dostrajany w przypadku ciężkich dokumentów tekstowych, aby wyostrzyć jego zdolność do rekonstrukcji drobnych szczegółów, zapewniając, że części obrazu nietknięte przez podpowiedź pozostają doskonale zachowane.
Oba zestawy funkcji są następnie przekazywane do podstawowego multimodalnego transformatora dyfuzyjnego modelu (MMDIT). Umożliwia to systemowi dokładną równowagę, czyniąc edycje, które, jak zauważono jeden z raportu, wierny zarówno intencji użytkownika, jak i wyglądu oryginalnego obrazu. Ta architektura umożliwia dwa wyraźne i potężne tryby edycji.
Pierwsza, semantyczna edycja, została zaprojektowana do szerokich transformacji, które zmieniają ogólne znaczenie lub styl obrazu. Ten tryb pozwala na znaczne zmiany w poziomie pikseli na całym płótnie przy jednoczesnym zachowaniu podstawowej tożsamości podmiotu. Praktyczne zastosowania obejmują zmianę stylu zdjęcia w celu przypominania animacji studio Ghibli, obracanie obiektu w celu ujawnienia nowego punktu widzenia lub tworzenia całego pakietów emoji z maskotki.
Drugi tryb, edycja wyglądu, koncentruje się na modyfikacjach chirurgicznych, w których precyzja jest kluczowa. Pozwala użytkownikom dodawać lub usuwać elementy, zmienić kolor jednego obiektu lub wykonywać delikatne retuszowanie zdjęć, zapewniając jednocześnie całkowicie niezmienione obszary. Jak zauważył Badacz zespołu Qwen, Junyang Lin: „Może usunąć pasmo włosów, bardzo delikatna modyfikacja obrazu.”
Nowy punkt odniesienia do dwujęzycznej edycji tekstu
, gdzie qwen-Image-Edit naprawdę rozróżnia siebie, znajduje się w zaawansowanej obsłudze tekstu, która podnosi go od prostego edytora obrazu do shwen-Image narzędzi. Model dziedziczy i rozszerza silne możliwości renderowania dwujęzycznego swojego poprzednika, modelu fundamentu QWen-Image, który został specjalnie zaprojektowany w celu opanowania typografii. Pozwala to dokładnie dodawać, usuwać lub modyfikować tekst w języku angielskim i chińskim.
Ta funkcja dotyczy trwałej i fundamentalnej słabości w większości generatywnych systemów AI. Standardowe modele dyfuzji często zmagają się z tekstem, ponieważ przetwarzają obrazy jako rozległe wzorce pikseli, a nie jako postacie symboliczne. To sprawia, że spójna pisownia, logiczne odstępy i spójna typografia jest poważną przeszkodą, szczególnie w przypadku złożonych scenariuszy logograficznych, takich jak chiński.
Qwen-Image-Edit przezwycięży to poprzez wyspecjalizowane szkolenie jej architektury. Model fundamentu został przeszkolony przy użyciu podejścia „uczenia się programu nauczania”, zaczynając od podstawowych obrazów przed stopniowym skalowaniem w celu obsługi opisów tekstu na poziomie akapitu. Zostało to uzupełnione rurociągiem syntezy danych, który wygenerował wysokiej jakości, bogate w tekst obrazy szkoleniowe, skutecznie ucząc modelu reguł typografii.
Dla użytkowników przekłada się to na niespotykany poziom kontroli. Model może
Możliwości modelu obejmują złożone, iteracyjne poprawki, pokazując jego precyzję. Zespół QWen pokazał, w jaki sposób użytkownik może wykonać serię „połączonych” edycji, aby naprawić indywidualne błędy postaci w kawałku wygenerowanej chińskiej kaligrafii. Rysując ograniczające pola w niepoprawnych regionach i wydając nowe podpowiedzi tekstowe, użytkownicy mogą stopniowo udoskonala dzieło, aż będzie doskonałe , zadanie, które wymaga zarówno zrozumienia semantycznego, jak i precyzyjnego manipulacji. Rynek konkurencyjny
Alibaba o wydaniu QWen-Image-Edit w ramach a licencja permisji jest wyraźnym strategicznym gambitem. Udostępnia najnowocześniejsze narzędzie swobodnie dostępne do użytku komercyjnego, bezpośrednio podcinając modele biznesowe uznanych graczy. Premiera pojawia się w miarę upałów rynku edycji AI. Adobe niedawno wzmocnił Photoshopa nowymi funkcjami napędzanymi Firefly, takimi jak „Harmonize” do mieszania obiektów i „generatywnego ekskluzywnego” do zwiększenia rozdzielczości. Pojawiły się również inne potężne modele konkurentów, takie jak BYTETANE i Black Forest Labs z możliwościami edycji obrazów. Deepa Subramaniam Adobe powiedział, że ostatnie innowacje mają na celu usunięcie kreatywnych barier, stwierdzając: „Te nowe innowacje pochodzą z naszych trwających rozmów z kreatywną społecznością, w której słyszymy, jak możemy ewoluować narzędzia w Photoshop, aby usunąć bariery”. Podejście Open-Source Alibaba stanowi inną, bardziej destrukcyjną ścieżkę do tego samego celu. To wydanie jest najnowszym z szybkiej kolejności AI open source z Alibaba. Następuje debiut swojego modelu rozumowania QWEN3-myślącego do referencyjnego modelu generowania wideo WAN2.2. , uwalniając potężne otwarte modele do rozumowania, kodowania, wideo, a teraz edycji obrazów, Alibaba składa kompletny stos programisty AI. Strategia ma na celu kultywowanie globalnej społeczności deweloperów, która może opierać się na jej technologii, wspierając ekosystem, który może potencjalnie wprowadzać innowacje szybciej niż zamknięte, zastrzeżone platformy. Ta lawina aktywności sygnalizuje strategiczne przestawienie od złożonych „myślenia hybrydowego” wcześniejszych modeli. Rzecznik Alibaba Cloud potwierdził tę zmianę, wyjaśniając „po omówieniu ze społecznością i zastanowieniu się nad sprawą, postanowiliśmy porzucić tryb myślenia hybrydowego. Teraz będziemy trenować modele instruktażu i myślenia, aby osiągnąć najlepszą możliwą jakość”. Koncentracja na wyspecjalizowanych, wysokiej jakości otwartych modelach ma na celu zbudowanie kompleksowego ekosystemu, który może wyprzedzić zamknięte systemy, które dominują na rynku.