Alibaba ha rilasciato Qwen3, una nuova famiglia di modelli di grandi dimensioni che mirano a competere con le migliori offerte di intelligenza artificiale di Openai e Google attraverso caratteristiche distintive come modalità”pensiero ibrido”e ampio supporto multilingue. In una mossa coerente con le sue precedenti versioni open source come Wan 2.1, il gigante della tecnologia cinese ha reso la maggior parte dei modelli nella serie Qwen3 disponibili con una licenza Apache 2.0 tramite piattaforme tra cui , github , kaggle .

Strong> Pensiero ibrido e capacità multilingue

Central per qwen3 è il suo diduation. Una”modalità di pensiero”predefinita consente ai modelli di eseguire un ragionamento passo-passo per attività complesse come matematica o codifica, che spesso producono questi passaggi intermedi all’interno dei tag prima della risposta finale.

Al contrario, una”modalità non di pensiero”fornisce risposte più veloci e dirette per interazioni più semplici. Gli sviluppatori possono attivare questo comportamento utilizzando un parametro abilita_thinking o tag specifici/Think e/No_think all’interno dei prompt. Il L’annuncio del team Qwen ha evidenziato questa flessibilità:”Questo design consente agli utenti di configurare budget di task-specifico con maggiore facilità, raggiungendo un equilibrio più ottimale tra efficienza di costi e qualità dell’impulso.”

Documentazione delle migliori pratiche su abbracciare la scheda del modello facciale per la modalità di pensiero. Supporta anche 119 lingue e dialetti, mirando a robuste istruzioni multilingue. I modelli gestiscono varie lunghezze di contesto; Modelli più piccoli come la variante 0,6B hanno una finestra token 32K nativa, mentre i modelli più grandi possono supportare token fino a 128k o 131k attraverso tecniche come il ridimensionamento del filo.

Prestazioni prestazionali e varianti del modello

La serie Qwen3 include diversi modelli aperti, come le versioni da 0,6B da 0,6B da 0,6B, e Strong> e Strong>

La serie Qwen3 include diversi modelli open weight, come le versioni da 0,6B, e la prestazione di palamitteri, e il fort Modelli di miscela di esperti (MOE): QWEN3-30B-A3B e fiore all’occhiello QWEN3-235B-A22B (che non è ancora scaricabile). Questi modelli MOE utilizzano 128 esperti totali ma attivano solo 8 per token (circa 3B di parametri attivi per il modello da 30B, 22B per la variante 235B), una tecnica progettata per l’efficienza computazionale, probabilmente sputata dalle sanzioni statunitensi che limitano l’accesso ai chip ad alte prestazioni.

Alibaba Posizioni di Qwen3. Si dice che il modello di punta 235B sia rivale come O3-Mini di Openi e Gemini 2.5 Pro di Google su specifici benchmark di codifica e matematica. Qwen2.5-72B-instruct. Si dice anche che Qwen3-32b disponibile pubblicamente supera il modello O1 di OpenAI su test di codifica come LiveCodebench. Queste affermazioni seguono precedenti rapporti in cui Alibaba ha benzinata il suo modello Qwen 2.5-Max favorevolmente contro DeepSeek V3.

Allenamento, architettura e utilizzo

I modelli sono stati pre-addestrati su un set di dati segnalati per essere circa 36 trilioni di token, incorporando testo Web, codice, testo estratto da PDFS (usando Qwen2.5-VL) e dati sintetici generati attraverso modelli QWEN specializzati in matematica e in codice. Il processo di post-formazione prevedeva quattro fasi, tra cui l’apprendimento del rinforzo e passaggi specifici per fondere le capacità di pensiero e non pensiero. Per le attività agricole, Qwen3 supporta il protocollo di contesto del modello (MCP), con Alibaba che raccomanda il suo qwen-agent framework .

può usare Qwen3 tramite standard `(ultima versioni Avvind. Framework di distribuzione come Sglang e VLLM o strumenti locali come Ollama e LMStudio. AN Modello 0,6b frequentato FP8 è offerto per efficienza, sebbene potrebbero essere necessari potenziali aggiustamenti per alcuni frameworks come VLLM. Alibaba ha anche chiarito il suo nuovo schema di denominazione, rimuovendo”-instruct”dai modelli post-addestrati e aggiungendo”-base”ai modelli di base.

Qwen3 entra in un paesaggio Dynamic AI. Alibaba afferma che la famiglia Qwen costituisce il più grande ecosistema di intelligenza artificiale open source del mondo da modelli derivati, citando oltre 100.000 in faccia ad abbraccio. Qwen3 è già integrato nell’assistente di AI AI di Alibaba, che ha guidato i chatbot cinesi negli utenti attivi mensili nel marzo 2025. Il rilascio segue il precedente Qwen 2.5 di Alibaba (gennaio 2025) e i modelli QWQ (febbraio 2025).

ARIGE AR arena della Cina Mercato competitivo di intelligenza artificiale domestico. DeepSeek AI ha fatto ondate significative con il suo efficiente DeepSeek V3 (dicembre 2024) e il potente modello di ragionamento DeepSeek R1 (gennaio 2025). Tuttavia, da allora DeepSeek ha affrontato un notevole controllo internazionale, tra cui indagini sulla privacy dei dati in Italia, una revisione interna di Microsoft e Openi su un presunto accesso ai dati improprio e un Rapporto della Camera degli Stati Uniti Seleziona Comitato sul CCP (Etichetta di Etichetta nazionale e etichetta National-DeepSeek”Target=”_ Blank”> Rapporto della Camera degli Stati Uniti commission e furto di IP.

Scala CEO AI Alexandr Wang ha anche affermato a fine gennaio che”Deepseek ha circa 50.000 GPU NVIDIA H100. Non possono parlarne perché viola i controlli di esportazione statunitensi… la realtà è che abbiano accumulato prima che le sanzioni complete abbiano avuto effetto…”Deepseek sostiene ufficialmente ufficialmente che ha usato HH800 GPU. Recentemente, DeepSeek si è spostato verso l’infrastruttura open-sourcing come il file system 3FS e ricerche come l’accordatura della critica auto-stampata (SPCT), mentre altri giocatori usano i dati open source di DeepSeek per creare anche versioni modificate come il modello più importante. Baidu ha recentemente intensificato la guerra dei prezzi con i suoi modelli Ernie Turbo (25 aprile 2025), offrendo una significativa riduzione dei costi dopo aver lanciato i modelli abili Ernie 4.5 e X1 a marzo e rendendo il suo bot Ernie libero a febbraio.

Tencent ha lanciato il suo Hunyuan Turbo S (feb 2025) focalizzato su Speed-Centric. Il suo uso di modelli DeepSeek per l’efficienza. Nel frattempo, Zhipu AI, sostenuto in parte da Alibaba, ha rilasciato il suo agente Autoglm gratuito (marzo 2025) e sta perseguendo una IPO. Alibaba stessa ha integrato i precedenti modelli Qwen nel suo assistente di AI Quark.

Categories: IT Info