Alibaba wydała QWEN3, nową rodzinę dużych modeli językowych mających na celu konkurowanie z najlepszymi ofertami AI z Openai i Google, poprzez charakterystyczne funkcje, takie jak tryby „Hybryd myślenia” i szerokie wsparcie wielojęzyczne. W ruchu zgodnym z poprzednimi wydaniami typu open source, takimi jak WAN 2.1, chiński gigant technologiczny dokonał większości modeli w serii QWEN3 na licencji Apache 2.0 za pośrednictwem platform, w tym , github , i kaggle .
myślenie hybrydowe i możliwości wieloosobowe
środkowe do qwen3 jest podejście operacyjne. Domyślny „tryb myślenia” umożliwia modele wykonywanie rozumowania krok po kroku dla złożonych zadań, takich jak matematyka lub kodowanie, często wysyłając te pośrednie kroki w tagach przed końcową odpowiedzią. I odwrotnie, „tryb nie myślących” zapewnia szybsze, bezpośrednie odpowiedzi dla prostszych interakcji. Deweloperzy mogą przełączać to zachowanie za pomocą parametru Enable_thinking lub specyficznych/myślenia i/no_think w podpowiedzi. oświadczenie zespołu qwen podkreśliło tę elastyczność: „Ten projekt umożliwia użytkownikom skonfigurowanie budżetów specyficznych dla zadań z większą łatwością, osiągając bardziej optymalną równowagę między wydajnością kosztów i na nagłośnie. height=”576″src=”data: image/svg+xml; nitro-empty-id=mty2otoxnje4-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz Yiiihdpzhropixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cUdzmub3jnlziwmdavc3znij48l3nzz4=”
Dokumentacja najlepszych praktyk na temat przytulanie karty modelu twarzy dla QWEN3-0.6B-FPP8 zaleca odrębne parametry próbkowania dla każdego trybu i ostrzegawczych. Obsługuj 119 języków i dialekty, dążąc do solidnych instrukcji wielojęzycznych. Modele obsługują różne długości kontekstu; Mniejsze modele, takie jak wariant 0,6B, mają natywne okno tokena 32K, podczas gdy większe modele mogą podobno obsługiwać do 128K lub 131K tokenów za pomocą technik takich jak skalowanie przędzy.
Roszczenia o wydajność i warianty modelu
qWen3 obejmują kilka modeli otwartych, takich jak wersje gatunku z 0,6b do 32b parametrów, i dwóch parametrów i dwóch parametrów, i dwóch parametrów, i dwóch Modele mieszanki ekranów (MOE): QWEN3-30B-A3B i flagowy QWEN3-235B-A22B (który nie można jeszcze pobrać). Te modele MOE wykorzystują 128 całkowitej ekspertów, ale aktywują tylko 8 na token (około 3B aktywnych parametrów dla modelu 30B, 22b dla wariantu 235b), technika zaprojektowana do wydajności obliczeniowej, prawdopodobnie pobudzonej przez sankcje amerykańskie ograniczające dostęp do układów o wysokiej wydajności.
Alibaba pozycja QWEN3 agresywnie. Flagowy model 235B twierdzi, że rywalizuje z modelami, takimi jak O3-Mini Openai i Google’s Gemini 2.5 Pro na temat określonych punktów odniesienia i matematyki.
Zespół QWen stwierdza, że ich otwarty model QWEN3-30B-A3B wyróżnia ich poprzedni model QWQ-32B oraz że mały QWEN3-4B może zorganizować wydajność o dużej większej większej liczbie. QWEN2.5-72b-instruct. Publicznie dostępne QWEN3-32B ma również twierdzić, że przewyższa model O1 Openai w testach kodowania, takich jak LiveCodeBench. Roszczenia te są zgodne z wcześniejszymi doniesieniami, w których Alibaba porównał swój model QWEN 2.5-Max pozytywnie przeciwko Deepseek V3.
Szkolenie, architektura i użycie
Modele zostały wstępnie wyszkolone na zbiorze danych, które zgłoszono około 36 trylionów tokenów, zawierające tekst, kod, tekst wyodrębniony z PDF (przy użyciu QWEN2.5-VL), a dane syntetyczne generowane przez wcześniejsze modele QWEN specjalizowane w matematyce i kodeksach. Proces po treningu obejmował cztery etapy, w tym uczenie się wzmocnienia i konkretne kroki w celu połączenia możliwości myślenia i nie myślących. W przypadku zadań agencyjnych QWEN3 obsługuje model kontekstowy Model Context (MCP), a Alibaba zaleca jego qwen-agent Framework .
developers może używać QWen3 przez standardowe rozwinięcie twarzy `Transformers'(najnowsza wersja Advised). Ramy wdrażania, takie jak Sglang i Vllm, lub lokalne narzędzia, takie jak Ollama i LMStudio. An model 0,6b FP8 jest oferowany dla wydajności, chociaż potencjalne korekty mogą być konieczne dla niektórych ramek, takich jak Vllm. Alibaba wyjaśniła także swój nowy schemat nazewnictwa, usuwając „-instrukt” z modeli po wyszkoleniu i dodając „bazę” do modeli podstawowych.
Qwen3 wchodzi w dynamiczny krajobraz AI. Alibaba twierdzi, że rodzina QWen stanowi największy na świecie ekosystem AI na świecie według modeli pochodnych, powołując się na ponad 100 000 na przytulanie twarzy. QWEN3 jest już zintegrowany z Alibaba Quark AI Assistant, który prowadził chińskie chatboty u miesięcznych aktywnych użytkowników w marcu 2025 r.. W wydaniu następuje wcześniejszy QWEN 2.5 (styczeń 2025 r.) I QWQ (luty/marca 2025 r.).