Alibaba lanceert open-source Qwen3 AI-familie met hybride denkmodi

Alibaba heeft Qwen3 uitgebracht, een nieuwe familie van grote taalmodellen die willen concurreren met top AI-aanbiedingen van OpenAI en Google via onderscheidende functies zoals”Hybrid Thinking”-modi en brede meertalige ondersteuning. In a move consistent with its previous open-source releases like Wan 2.1, the Chinese tech giant made most models in the Qwen3 series available under an Apache 2.0 license via platforms including Hugging Gezicht , github , alibaba’s ModelScope, and Kaggle.

Hybrid Thinking and Multilingual Capabilities

Central to Qwen3 is its dual operational approach. Met een standaard”denkmodus”kunnen de modellen stapsgewijze redenering uitvoeren voor complexe taken zoals wiskunde of codering, waarbij deze tussenliggende stappen vaak binnen tags worden uitgevoerd vóór de uiteindelijke reactie.

Omgekeerd biedt een”niet-denkende modus”snellere, directe antwoorden voor eenvoudigere interacties. Ontwikkelaars kunnen dit gedrag schakelen met behulp van een enable_thinking-parameter of specifieke/denk-en/no_think-tags in prompts. De Qwen-team’s aankondiging Markeerde deze flexibiliteit:”Dit ontwerp stelt gebruikers in staat om taakspecifieke budgetten te configureren tussen taakspecifieke budgetten”1024″hoogte=”576″src=”data: image/svg+xml; nitro-empty-id=mty2Otoxnje4-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1nz Yiihdpzhropsixmdi0iibozwlnahq9iju3niigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Best practices documentatie op de knuffelende gezichtsmodelkaart knuffelen voor qwen3-0.6b-fp8 Adviseert onderscheiden samplingparameters voor elke modus en waarschuwt tegen grijze decodes. Ondersteun ook 119 talen en dialecten, gericht op robuuste meertalige instructies die volgen. De modellen verwerken verschillende contextlengtes; Kleinere modellen zoals de 0.6B-variant hebben een native 32K-tokenvenster, terwijl grotere modellen naar verluidt tot 128k of 131k-tokens kunnen ondersteunen via technieken zoals garenschaal.

prestatieclaims en modelvarianten

De QWEN3-serie omvat verschillende open-wight-modellen, zoals Dense versies van 0.6b To 32B Parameters en Twe Mengsel-of-experts (MOE) Modellen: QWEN3-30B-A3B en het vlaggenschip QWEN3-235B-A22B (dat nog niet kan worden gedownload). Deze MOE-modellen gebruiken 128 totale experts, maar activeren slechts 8 per token (ongeveer 3B actieve parameters voor het 30B-model, 22B voor de 235B-variant), een techniek die is ontworpen voor computationele efficiëntie, mogelijk gestimuleerd door Amerikaanse sancties die de toegang tot hoogwaardige chips beperken. Het vlaggenschip 235B-model wordt beweerd als rivaliserende modellen zoals Openai’s O3-Mini en Google’s Gemini 2.5 Pro over specifieke codering en wiskundige benchmarks.

Het QWEN-team stelt dat hun open QWen3-30B-A3B-model Outcompetes hun vorige QWQ-32B-model kan Qwen2.5-72b-instructie. Er wordt ook beweerd dat de openbaar beschikbare QWEN3-32B het O1-model van Openai overtroeft bij codeerttests zoals LiveCodebench. Deze claims volgen eerdere rapporten waarbij Alibaba zijn Qwen 2,5-max-model gunstig tegen Deepseek v3 heeft benchmarkt.

Training, architectuur en gebruik

De modellen waren vooraf opgeleid op een dataset gerapporteerd als ongeveer 36 biljoen tokens, met webtekst, code, tekst, geëxtraheerd uit PDF’s (met behulp van QWEN2.5-VL) en synthetische gegevens die zijn gegenereerd via eerdere QWen-modellen gespecialiseerd in wiskunde en code. Het post-trainingsproces omvatte vier fasen, waaronder het leren van versterking en specifieke stappen om het denken en niet-denkende mogelijkheden te versmelten. Voor agentische taken ondersteunt QWen3 het modelcontextprotocol (MCP), waarbij Alibaba de aanbeveling van qwen-agent framework .

ontwikkelaars kan gebruiken, kunnen qwen 3 via standaard hangende face `transformers Implementatiekaders zoals Sglang en Vllm, of lokale tools zoals Ollama en Lmstudio. An FP8-gekantiseerd 0.6B-model wordt aangeboden voor efficiëntie, hoewel potentiële aanpassingen nodig kunnen zijn voor bepaalde frameworks zoals VLLM. Alibaba verduidelijkte ook zijn nieuwe naamgevingsschema, het verwijderen van”-instruct”van post-opgeleide modellen en het toevoegen van”-base”aan basismodellen.

Qwen3 voert een dynamisch AI-landschap in. Alibaba beweert dat de Qwen-familie het grootste open-source AI-ecosysteem ter wereld vormt door derivatenmodellen, die meer dan 100.000 onder verwijzing naar knuffelen. QWen3 is al geïntegreerd in de Quark AI-assistent van Alibaba, die Chinese chatbots leidde in maandelijkse actieve gebruikers in maart 2025. De release volgt op de eerdere Qwen 2.5 van Alibaba (januari 2025) en QWQ-modellen (feb/maart 2025).

China-arena

qwen3 qwen3 qwen3 qwen3 qwen3 in Concurrerende binnenlandse AI-markt. Deepseek AI maakte significante golven met zijn efficiënte Deepseek V3 (december 2024) en het krachtige Deepseek R1-redeneermodel (januari 2025). Deepseek heeft sindsdien echter te maken gehad href=”https://selectcommitteeontheccp.house.gov/media/press-releases/moolenaar-krishnamoorthi-unveil-explosive-report-chinese-ai-firm-deepseek” target=”_blank”>report from the US House Select Committee on the CCP (April 16, 2025) labeling it a national security risk and alleging espionage en IP-diefstal.

Schaal AI CEO Alexandr Wang beweerde ook eind januari dat”Deepseek ongeveer 50.000 NVIDIA H100 GPU’s heeft. Ze kunnen er niet over praten omdat het de Amerikaanse exportcontroles schendt… de realiteit is dat ze opsloeg voordat de volledige sancties van kracht zijn…”Officieel onderhouden van de gebruikte compliant H800 GPUS. Onlangs is Deepseek verschoven naar een open-sourcing-infrastructuur zoals het 3FS-bestandssysteem en onderzoek zoals zelfprinciped kritiek tuning (SPCT), terwijl andere spelers de open-source gegevens van Deepseek gebruiken om aangepaste versies te maken, zoals het onlangs vrijgegeven Deepseek-r1t-chimera-model, dat R1-en V3-componenten is. Baidu heeft onlangs de prijsoorlog geëscaleerd met zijn Ernie Turbo-modellen (25 april 2025) en biedt aanzienlijke kostenreducties na de lancering van de capabele Ernie 4.5-en X1-modellen in maart en maakte zijn Ernie Bot gratis in februari. het bevestigen van het gebruik van Deepseek-modellen voor efficiëntie. Ondertussen heeft ZHIPU AI, gedeeltelijk ondersteund door Alibaba, zijn gratis Autoglm-agent (maart 2025) vrijgegeven en een IPO nastreeft. Alibaba zelf integreerde eerder QWen-modellen in zijn Quark AI-assistent.

Alibaba lanceert open-source Qwen3 AI-familie met hybride denkmodi

Published by All Things Windows on April 30, 2025

Hybrid Thinking and Multilingual Capabilities

prestatieclaims en modelvarianten

Training, architectuur en gebruik

China-arena

IT Info

Amazon lanceert Nova Premier, het meest geavanceerde multimodale AI-model tot nu toe

IT Info

Duolingo lanceert 148 door AI gegenereerde taalcursussen na het snijden van banen

IT Info

Nieuwe IBM Bamba Hybrid AI-model richt zich op snelheidslimieten van transformatorarchitectuur

Alibaba lanceert open-source Qwen3 AI-familie met hybride denkmodi

Published by All Things Windows on April 30, 2025

Hybrid Thinking and Multilingual Capabilities

prestatieclaims en modelvarianten

Training, architectuur en gebruik

China-arena

Related Posts

IT Info

Amazon lanceert Nova Premier, het meest geavanceerde multimodale AI-model tot nu toe

IT Info

Duolingo lanceert 148 door AI gegenereerde taalcursussen na het snijden van banen

IT Info

Nieuwe IBM Bamba Hybrid AI-model richt zich op snelheidslimieten van transformatorarchitectuur