Alibaba ha rilasciato Qwen3, una nuova famiglia di modelli di grandi dimensioni che mirano a competere con le migliori offerte di intelligenza artificiale di Openai e Google attraverso caratteristiche distintive come modalità”pensiero ibrido”e ampio supporto multilingue. In una mossa coerente con le sue precedenti versioni open source come Wan 2.1, il gigante della tecnologia cinese ha reso la maggior parte dei modelli nella serie Qwen3 disponibili con una licenza Apache 2.0 tramite piattaforme tra cui , github , kaggle .
Strong> Pensiero ibrido e capacità multilingue
Central per qwen3 è il suo diduation. Una”modalità di pensiero”predefinita consente ai modelli di eseguire un ragionamento passo-passo per attività complesse come matematica o codifica, che spesso producono questi passaggi intermedi all’interno dei tag prima della risposta finale.
Al contrario, una”modalità non di pensiero”fornisce risposte più veloci e dirette per interazioni più semplici. Gli sviluppatori possono attivare questo comportamento utilizzando un parametro abilita_thinking o tag specifici/Think e/No_think all’interno dei prompt. Il L’annuncio del team Qwen ha evidenziato questa flessibilità:”Questo design consente agli utenti di configurare budget di task-specifico con maggiore facilità, raggiungendo un equilibrio più ottimale tra efficienza di costi e qualità dell’impulso.”
Prestazioni prestazionali e varianti del modello
La serie Qwen3 include diversi modelli aperti, come le versioni da 0,6B da 0,6B da 0,6B, e Strong> e Strong>
La serie Qwen3 include diversi modelli open weight, come le versioni da 0,6B, e la prestazione di palamitteri, e il fort Modelli di miscela di esperti (MOE): QWEN3-30B-A3B e fiore all’occhiello QWEN3-235B-A22B (che non è ancora scaricabile). Questi modelli MOE utilizzano 128 esperti totali ma attivano solo 8 per token (circa 3B di parametri attivi per il modello da 30B, 22B per la variante 235B), una tecnica progettata per l’efficienza computazionale, probabilmente sputata dalle sanzioni statunitensi che limitano l’accesso ai chip ad alte prestazioni.
Alibaba Posizioni di Qwen3. Si dice che il modello di punta 235B sia rivale come O3-Mini di Openi e Gemini 2.5 Pro di Google su specifici benchmark di codifica e matematica. Qwen2.5-72B-instruct. Si dice anche che Qwen3-32b disponibile pubblicamente supera il modello O1 di OpenAI su test di codifica come LiveCodebench. Queste affermazioni seguono precedenti rapporti in cui Alibaba ha benzinata il suo modello Qwen 2.5-Max favorevolmente contro DeepSeek V3.
Allenamento, architettura e utilizzo
I modelli sono stati pre-addestrati su un set di dati segnalati per essere circa 36 trilioni di token, incorporando testo Web, codice, testo estratto da PDFS (usando Qwen2.5-VL) e dati sintetici generati attraverso modelli QWEN specializzati in matematica e in codice. Il processo di post-formazione prevedeva quattro fasi, tra cui l’apprendimento del rinforzo e passaggi specifici per fondere le capacità di pensiero e non pensiero. Per le attività agricole, Qwen3 supporta il protocollo di contesto del modello (MCP), con Alibaba che raccomanda il suo qwen-agent framework .
può usare Qwen3 tramite standard `(ultima versioni Avvind. Framework di distribuzione come Sglang e VLLM o strumenti locali come Ollama e LMStudio. AN Modello 0,6b frequentato FP8 è offerto per efficienza, sebbene potrebbero essere necessari potenziali aggiustamenti per alcuni frameworks come VLLM. Alibaba ha anche chiarito il suo nuovo schema di denominazione, rimuovendo”-instruct”dai modelli post-addestrati e aggiungendo”-base”ai modelli di base.
Qwen3 entra in un paesaggio Dynamic AI. Alibaba afferma che la famiglia Qwen costituisce il più grande ecosistema di intelligenza artificiale open source del mondo da modelli derivati, citando oltre 100.000 in faccia ad abbraccio. Qwen3 è già integrato nell’assistente di AI AI di Alibaba, che ha guidato i chatbot cinesi negli utenti attivi mensili nel marzo 2025. Il rilascio segue il precedente Qwen 2.5 di Alibaba (gennaio 2025) e i modelli QWQ (febbraio 2025).