Alibaba wydała QWEN3, nową rodzinę dużych modeli językowych mających na celu konkurowanie z najlepszymi ofertami AI z Openai i Google, poprzez charakterystyczne funkcje, takie jak tryby „Hybryd myślenia” i szerokie wsparcie wielojęzyczne. W ruchu zgodnym z poprzednimi wydaniami typu open source, takimi jak WAN 2.1, chiński gigant technologiczny dokonał większości modeli w serii QWEN3 na licencji Apache 2.0 za pośrednictwem platform, w tym , github , i kaggle .

myślenie hybrydowe i możliwości wieloosobowe

środkowe do qwen3 jest podejście operacyjne. Domyślny „tryb myślenia” umożliwia modele wykonywanie rozumowania krok po kroku dla złożonych zadań, takich jak matematyka lub kodowanie, często wysyłając te pośrednie kroki w tagach przed końcową odpowiedzią. I odwrotnie, „tryb nie myślących” zapewnia szybsze, bezpośrednie odpowiedzi dla prostszych interakcji. Deweloperzy mogą przełączać to zachowanie za pomocą parametru Enable_thinking lub specyficznych/myślenia i/no_think w podpowiedzi. oświadczenie zespołu qwen podkreśliło tę elastyczność: „Ten projekt umożliwia użytkownikom skonfigurowanie budżetów specyficznych dla zadań z większą łatwością, osiągając bardziej optymalną równowagę między wydajnością kosztów i na nagłośnie. height=”576″src=”data: image/svg+xml; nitro-empty-id=mty2otoxnje4-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz Yiiihdpzhropixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cUdzmub3jnlziwmdavc3znij48l3nzz4=”

Dokumentacja najlepszych praktyk na temat przytulanie karty modelu twarzy dla QWEN3-0.6B-FPP8 zaleca odrębne parametry próbkowania dla każdego trybu i ostrzegawczych. Obsługuj 119 języków i dialekty, dążąc do solidnych instrukcji wielojęzycznych. Modele obsługują różne długości kontekstu; Mniejsze modele, takie jak wariant 0,6B, mają natywne okno tokena 32K, podczas gdy większe modele mogą podobno obsługiwać do 128K lub 131K tokenów za pomocą technik takich jak skalowanie przędzy.

Roszczenia o wydajność i warianty modelu

qWen3 obejmują kilka modeli otwartych, takich jak wersje gatunku z 0,6b do 32b parametrów, i dwóch parametrów i dwóch parametrów, i dwóch parametrów, i dwóch Modele mieszanki ekranów (MOE): QWEN3-30B-A3B i flagowy QWEN3-235B-A22B (który nie można jeszcze pobrać). Te modele MOE wykorzystują 128 całkowitej ekspertów, ale aktywują tylko 8 na token (około 3B aktywnych parametrów dla modelu 30B, 22b dla wariantu 235b), technika zaprojektowana do wydajności obliczeniowej, prawdopodobnie pobudzonej przez sankcje amerykańskie ograniczające dostęp do układów o wysokiej wydajności.

Alibaba pozycja QWEN3 agresywnie. Flagowy model 235B twierdzi, że rywalizuje z modelami, takimi jak O3-Mini Openai i Google’s Gemini 2.5 Pro na temat określonych punktów odniesienia i matematyki.

Zespół QWen stwierdza, że ​​ich otwarty model QWEN3-30B-A3B wyróżnia ich poprzedni model QWQ-32B oraz że mały QWEN3-4B może zorganizować wydajność o dużej większej większej liczbie. QWEN2.5-72b-instruct. Publicznie dostępne QWEN3-32B ma również twierdzić, że przewyższa model O1 Openai w testach kodowania, takich jak LiveCodeBench. Roszczenia te są zgodne z wcześniejszymi doniesieniami, w których Alibaba porównał swój model QWEN 2.5-Max pozytywnie przeciwko Deepseek V3.

Szkolenie, architektura i użycie

Modele zostały wstępnie wyszkolone na zbiorze danych, które zgłoszono około 36 trylionów tokenów, zawierające tekst, kod, tekst wyodrębniony z PDF (przy użyciu QWEN2.5-VL), a dane syntetyczne generowane przez wcześniejsze modele QWEN specjalizowane w matematyce i kodeksach. Proces po treningu obejmował cztery etapy, w tym uczenie się wzmocnienia i konkretne kroki w celu połączenia możliwości myślenia i nie myślących. W przypadku zadań agencyjnych QWEN3 obsługuje model kontekstowy Model Context (MCP), a Alibaba zaleca jego qwen-agent Framework .

developers może używać QWen3 przez standardowe rozwinięcie twarzy `Transformers'(najnowsza wersja Advised). Ramy wdrażania, takie jak Sglang i Vllm, lub lokalne narzędzia, takie jak Ollama i LMStudio. An model 0,6b FP8 jest oferowany dla wydajności, chociaż potencjalne korekty mogą być konieczne dla niektórych ramek, takich jak Vllm. Alibaba wyjaśniła także swój nowy schemat nazewnictwa, usuwając „-instrukt” z modeli po wyszkoleniu i dodając „bazę” do modeli podstawowych.

Qwen3 wchodzi w dynamiczny krajobraz AI. Alibaba twierdzi, że rodzina QWen stanowi największy na świecie ekosystem AI na świecie według modeli pochodnych, powołując się na ponad 100 000 na przytulanie twarzy. QWEN3 jest już zintegrowany z Alibaba Quark AI Assistant, który prowadził chińskie chatboty u miesięcznych aktywnych użytkowników w marcu 2025 r.. W wydaniu następuje wcześniejszy QWEN 2.5 (styczeń 2025 r.) I QWQ (luty/marca 2025 r.).

zatrzymał Chiny AI AI

QWen3 do Fiercely do fiercencji w fierce. Konkurencyjny krajowy rynek sztucznej inteligencji. Deepseek AI wykonał znaczące fale dzięki skutecznemu głębokiemu poszczególnemu V3 (grudzień 2024) i silnym modelem rozumowania Deepseek R1 (styczeń 2025). Jednak od tego czasu Deepseek stanął w obliczu znacznej kontroli międzynarodowej, w tym dochodzeń w zakresie prywatności danych we Włoszech, wewnętrznym przeglądem Microsoft i Openai w sprawie rzekomego niewłaściwego dostępu do danych oraz krytycznym Raport z komisji amerykańskiej domów w CCP (16 kwietnia, 2025) oznaczanie bezpieczeństwa krajowego i od lądu i od lądu. Kradzież IP.

CEO AI AI Alexandr Wang również pod koniec stycznia stwierdził, że „Deepseek ma około 50 000 GPU Nvidia H100. Nie mogą o tym mówić, ponieważ narusza kontrolę eksportu USA… rzeczywistość jest taka, że ​​zaopatrzone w pełne sankcje…” Deepseek oficjalnie utrzymuje zgodne z H800. Ostatnio Deepseek przeszedł w kierunku infrastruktury otwartej, takiej jak system plików i badania 3FS, takie jak samozaprzyjający się tuningiem krytyki (SPCT), podczas gdy inni gracze używają danych open source Deepseek, aby stworzyć zmodyfikowane wersje, takie jak niedawno wydany model DeepSeek-R1T-Chimera, który łączy komponenty R1 i V3. Baidu niedawno eskalował wojnę cenową z modelami Ernie Turbo (25 kwietnia 2025 r.), Oferując znaczne obniżki kosztów po uruchomieniu zdolnych modeli Ernie 4.5 i X1 w marcu i uwolnieniu Ernie Bot w lutym.

Tencent uruchomił swój hunyuan Turbo S (luty 2025) koncentrowało się na prędkości i rozumowaniu hunyuan t1 (marca 2025), a także machanie T1 (marca 2025). Wykorzystanie modeli DeepSeek do wydajności. Tymczasem Zhipu AI, wspierany częściowo przez Alibaba, wydał bezpłatny agent Autoglm (marzec 2025) i realizuje IPO. Sama Alibaba zintegrowała wcześniejsze modele QWen z asystentem Quark AI.

Categories: IT Info