Zespół QWen
Alibaba wprowadził QWEN3-VL, jej najpotężniejszą jak dotąd serię modeli w języku wizji.
Wydana 23 września, flagowy jest ogromnym modelem o 235 miliardów parametrów, udostępnianych swobodnie dla programistów na całym świecie. Jego duży rozmiar (471 GB) sprawia, że jest to narzędzie dla zespołów dobrze zasiężnych.
AI open source bezpośrednio kwestionuje najwyższe systemy zamknięte, takie jak Google’s Gemini 2.5 Pro z zaawansowanymi nowymi umiejętnościami.
Obejmują one działanie jako „agent wizualny” do kontrolowania aplikacji i zrozumienia godzin długich. Wydanie jest kluczowym posunięciem strategii Alibaba polegającej na prowadzeniu pola AI typu open source.
To premiera nie jest odosobnionym wydarzeniem, ale najnowszym salwa w agresywnej kampanii Alibaba w celu zdominowania wytwarzania AI open source. W ostatnich miesiącach, w ostatnich miesiącach, w ostatnich miesiącach, otwartą alternatywę, otwartą alternatywę do proporcjonalnej alternatywy, aby proporcjonować do proporcjonalnej alternatywy do proporcjonalnej alternatywy do proporcjonalnej alternatyw stosy zachodnich rywali.
Dostępne na przytulaniu twarzy Pod dopuszczalną licencją Apache 2.0 jest podzielony na „instruction” i „myślenie”. twierdzi, że jego wyniki są najnowocześniejsze. „Wersja instruktażowa odpowiada, a nawet przekracza Gemini 2.5 Pro w głównych testach odniesienia percepcji wizualnej. Wersja myślenia osiąga najnowocześniejsze wyniki w wielu testach Multimodal rozumowania”, zespół stwierdził w swoim ogłoszeniu.
Od postrzegania do działania: nowy agent wizualny
a
Może rozpoznać elementy ekranowe, zrozumieć ich funkcje i wykonywać zadania autonomicznie.
To przekształca model z pasywnego obserwatora w aktywne uczestniczące w środowiskach cyfrowych. Potencjalne aplikacje obejmują automatyczne powtarzające się zadania oprogramowania i pomaganie użytkownikom w złożonych przepływach pracy po tworzenie bardziej intuicyjnych narzędzi dostępności do nawigowania aplikacji.
Praktyczne użyteczność modelu jest dodatkowo wzmacniana przez jego masywne okno kontekstowe. Natywnie obsługuje 256 000 tokenów, rozszerzalne do miliona.
To pozwala użytkownikowi zasilać model całą długą filmem filmową, a następnie zadawać konkretne pytania dotyczące punktów fabuły lub wystąpienia postaci, które model może wskazać do drugiego.
pod kapturem: Atutning architektura dla wizji i wideo
pod okapem: modyfikowana architektura dla wizji i wideo
qwen3-venn. Możliwości są napędzane znacznym remontem architektonicznym zaprojektowanym w celu przekraczania granic zrozumienia wizualnego i czasowego.
Zespół QWEN wprowadził trzy podstawowe aktualizacje w celu poprawy jego wydajności, szczególnie w przypadku długich wideo i drobnych szczegółów wizualnych, ponieważ .
Po pierwsze, model wykorzystuje „przeplatane mrope”, bardziej solidną metodę kodowania pozycji. Zastępuje to poprzednie podejście, w którym informacje czasowe skoncentrowano w wymiarach wysokiej częstotliwości. Nowa technika dystrybuuje dane dotyczące czasu, wysokości i szerokości na wszystkich częstotliwościach, znacznie poprawiając zrozumienie długich wideo przy jednoczesnym zachowaniu zrozumienia obrazu.
Po drugie, wprowadzenie technologii „DeepStack” poprawia uchwycenie szczegółów wizualnych. Zamiast wstrzykiwać tokeny wizualne w jedną warstwę modelu języka, DeepStack wstrzykuje je na wiele warstw. Pozwala to na drobnoziarnistą fuzję wielopoziomowych funkcji z transformatora Vision (VIT), wyostrzając dokładność wyrównania obrazu modelu.
Wreszcie zespół zaktualizował modelowanie czasowe wideo z linii T do mechanizmu „wyrównania tekstu”. Ten system wykorzystuje przeplatany format wejściowy znaczników czasu i ram wideo, umożliwiając precyzyjne wyrównanie poziomu ramki między danymi czasowymi a treścią wizualną. Znacząco zwiększa zdolność modelu do lokalizacji zdarzeń i działań w złożonych sekwencjach wideo.
To wydanie jest najnowszym z szybkiej i celowej ofensywy AI od Alibaba. Firma niedawno uruchomiła potężne modele open source do zaawansowanego rozumowania i generowania obrazów o wysokiej wierności. Ten ruch zestala również strategiczne obrotek od trybu „myślenia hybrydowego” wcześniejszych modeli, który wymagał od programistów przełączania między trybami.
Przejście na oddzielne, wyspecjalizowane modele dla opierania instrukcji i głębokie rozumowanie było napędzane przez społeczność sprzężenia zwrotne.
Alibaba na koncentracji odrębnych, wysokiej jakości modele, aby zapewnić deweloperze i potężne rozumowanie. Gambit open source w specjalistycznej dziedzinie
QWEN3-VL wchodzi w pole konkurencyjne, które coraz bardziej obraca się od monolitycznej „skala jest wszystkim potrzebnym”. Dominacja.
Ten strategiczny wybór umieszcza QWEN3-VL w różnorodnej dziedzinie wyspecjalizowanych narzędzi. Pole szybko dywersyfikuje się, a modele takie jak Florence-2 z Microsoftu wykonują również jednolite, szybkie podejście do obsługi wielu zadań wizji, takich jak podpis i wykrywanie obiektów w jednej, spójnej architekturze.
Jedną z kluczowych niszów jest wydajność w czasie rzeczywistym na ograniczonym sprzęcie, przykładem Roboflow RF-DETR. Ten lekki model jest zoptymalizowany pod kątem wykrywania obiektów na urządzeniach krawędziowych, priorytetów niskich opóźnień i reakcji w stosunku do interpretacyjnego rozumowania większych systemów.
Osiąga to poprzez usprawnienie złożonej architektury detr dla praktycznej, natychmiastowego wdrażania w robotyce i inteligentnych kamerach.
Inne modele, inne modele priorytują badania i dostępność. Na przykład wizja AYA Cohere to model otwartej wagi zaprojektowany specjalnie w celu rozwoju wielojęzycznych i multimodalnych badań sztucznej inteligencji, podkreślającym jego koncentrację na wzmacnianiu projektów akademickich i dostępności.
Być może najbardziej radykalnym wyzwaniem dla skalowania paradygmatu w zakresie skalowania paradygmatu. Naukowcy niedawno zaprezentowali all-topograficzną sieć neuronową (All-TNN), model, który naśladuje strukturę ludzkiego mózgu pod kątem doskonałej efektywności energetycznej.
Unikanie „dzielenia masy” powszechnego w konwencjonalnym AI, zamiast tego wykorzystując „ograniczenie gładkości”, aby zachęcić sąsiednich sztucznych neuronów do nauki podobnych cech.
to projektowanie mózgu do uczenia się w zakresie uczenia się na temat języka Strodowego z lokalizacji z sąsiednimi stronami. dane. Współautor Zejin Lu wyjaśnił koncepcję: „W przypadku ludzi, gdy wykryjesz niektóre obiekty, mają one typową pozycję. Znasz już, że buty są zwykle na dole, na ziemi. Samolot, na górze.”
Model nauczył się tych kontekstowych zasad, korelując trzy razy silniej z ludzkim wizją niż standardową splotowa sieć neuronowa (CNN) .
To ludzkie zachowanie wiąże się z kompromisem: jego surowa dokładność jest niższa niż tradycyjna CNN, ale konsumuje ponad dziesięć razy energię. To sprawia, że jest to przekonująca alternatywa dla urządzeń o niskiej mocy, w których wydajność jest najważniejsza, co dowodzi, że elegancka design może być bardziej skuteczna niż obliczenia brutalnej siły.
poprzez uwalnianie potężnego, otwartego i wyspecjalizowanego modelu wizji, Alibaba zakłada, że pielęgnowanie tego zróżnicowanego ekosystemu jest surową ścieżką do innowacji na tym etapie.