Il team Qwen di

Martedì di Alibaba ha rilasciato Qwen3-Coder, una nuova potente serie di modelli di codifica AI open source rivolti direttamente ai rivali come antropici. Intitolato da un’enorme versione da 480 miliardi di parametri, i modelli sono progettati per”agente”, consentendo loro di gestire autonomamente compiti di sviluppo software complessi. Per impostare un nuovo standard per i modelli aperti. Tuttavia, il lancio arriva anche in mezzo a profondo scetticismo dell’industria sui benchmark di AI, alimentato dalle recenti accuse secondo cui un altro dei modelli di Alibaba ha tradito i test delle prestazioni chiave.

sotto il cofano: una potenza di codifica agente 480B

href=”https://huggingface.co/qwen/qwen3-coder-480b-a35b-instruct”target=”_ blank”> qwen3-coder-480b-a35b-instruct , un modello di miscela-o-o-experts (MoE). Contiene 480 miliardi di parametri totali, ma attiva solo un sottoinsieme di 35 miliardi di parametri per ogni compito. Questa architettura fornisce una potenza immensa mantenendo l’efficienza computazionale.

>

La fondazione del modello è stata costruita su un colossale token di dati di pre-allenamento da 7,5 trilioni, con un rapporto del 70% dedicato specificamente al codice. Secondo il team Qwen, la qualità dei dati era fondamentale; Hanno sfruttato un modello precedente, Qwen2.5-coder, per pulire sinteticamente e riscrivere dati rumorosi per questa nuova generazione.

Le sue specifiche tecniche sono formidabili. Il modello vanta una lunghezza di contesto nativa di 256.000, che può essere estesa a un milione di token usando metodi di estrapolazione come il filato. Questa vasta capacità è adattata alla comprensione su scala di repository, consentendo all’intelligenza artificiale di cogliere l’intero contesto di grandi progetti software.

Questa consapevolezza contestuale è accoppiata con incredibile ampiezza. Il modello supporta una vasta gamma di linguaggi di programmazione, da scelte tradizionali come C ++, Python e Java a linguaggi specializzati come ABAP, Rust e Swift, come dettagliato sulla sua GitHuB Page . Ciò consente di gestire diversi ambienti di sviluppo e attività specializzate come l’inserimento del codice”riempimento-in-middle”.

Oltre il pre-allenamento, Alibaba si è focalizzato su tecniche avanzate di post-training. Il team ha ridimensionato ciò che chiama Code Rinformance Learning (CODE RL) su una vasta gamma di attività di codifica del mondo reale. Questo approccio si basa sul principio di affrontare i problemi che sono”difficili da risolvere, ma facili da verificare”, Usando il feedback guidato dall’esecuzione per aumentare significativamente i tassi di successo.

Per coltivare il vero comportamento agente, il team ha implementato ciò che chiama”RL a lungo termine”. Ciò ha richiesto la costruzione di un sistema scalabile su Alibaba Cloud in grado di eseguire 20.000 ambienti indipendenti in parallelo. Questa infrastruttura fornisce il ciclo di feedback cruciale per l’insegnamento del modello per pianificare, utilizzare strumenti e prendere decisioni attraverso interazioni complesse e multi-turn.

Secondo i dati sulle prestazioni rilasciati dal team Qwen, il nuovo modello di codificatore Qwen3 si stabilisce come un modello di codifica agente di alto livello, raggiungendo i risultati dello stato-art tra i suoi open. Sul benchmark Verified Banch SWECH, un test chiave delle capacità di ingegneria del software del mondo reale, il modello Qwen3-coder segna un impressionante 69,6% con 500 turni di interazione.

Questo lo colloca in concorrenza diretta con quasi alla pari con, il modello di proprietà principale, Claude-Sonnet-4, che ha segnato 70% in condizioni simili. Inoltre, il codificatore Qwen3 supera significativamente altri principali modelli sul campo, tra cui Kimi-K2 (65,4%), GPT-4.1 (54,6%) e Gemini-2.5-Pro (49,0%), cementando la sua posizione come nuovo contendente alla razza per la supremazia AI agente. Supremacy

Questa versione segnala la spinta aggressiva di Alibaba nella prossima frontiera di AI: Intelligenza agente. L’industria sta rapidamente andando oltre i semplici assistenti di codice verso agenti autonomi che possono pianificare, eseguire e adattarsi a complessi compiti di sviluppo in più fasi. Qwen3-coder non è solo un nuovo modello; È un ingresso strategico in questa crescente”corsa agli armamenti”.

La tendenza è già in fase di validazione nell’impresa. La banca di investimento Goldman Sachs, ad esempio, ha recentemente iniziato a pilotare l’agente AI Devin per costruire una”forza lavoro ibrida”. Il suo capo della tecnologia, Marco Argenti, ha descritto un futuro in cui”si tratta davvero di persone che lavorano fianco a fianco. Gli ingegneri dovrebbero avere la capacità di descrivere davvero i problemi in modo coerente…”spostando il focus umano da noioso codifica a una struttura noiosa di alto livello.

Qwen-codificatore in un campo affollato e conquistato. Negli Stati Uniti, Amazon ha recentemente svelato il suo agente Kiro per imporre una struttura alla caotica”Coding Vibe Coding”, mentre Google persegue un attacco a due punte con il suo studio completo di Firebase e una CLI GRATUITA GEMINI. Openai continua a migliorare il suo agente di Codice, dandogli recentemente l’accesso a Internet per trovare e utilizzare autonomamente i dati.

La concorrenza è altrettanto intensa nella”guerra di cento modelli”della Cina. Il codificatore Qwen3 è posizionato contro powerhouse open source come Moonshot AI, che ha recentemente rilasciato il suo modello Kimi K2 da 1 trilione di parametri. Questa rivalità domestica è alimentata da pressioni geopolitiche che costringono le aziende cinesi a costruire ecosistemi autosuocabili.

Le alte poste di questa gara sono evidenti nella spietata competizione per il talento e la tecnologia. La codifica della startup Windsurf ha recentemente visto Google careggiare il suo CEO e i migliori talenti, sfregando un’acquisizione di Openai Lanned e consentendo alla cognizione rivale di acquisire la società rimanente.

La battaglia si estende alla percezione pubblica, spesso combattuta sulle classifiche. In un chiaro esempio di questa”guerra di riferimento”, Xai di Elon Musk ha recentemente assunto gli appaltatori in particolare per addestrare il suo modello Grok 4 per battere Claude di Antropico. Gli immensi costi operativi sono anche un fattore, come si vede quando gli antropici hanno rafforzato i limiti di utilizzo per i suoi abbonati premium, evidenziando la tensione finanziaria di fornire questi potenti servizi.

Un lancio offuscato dal punto di vista del benchmark da una valutazione in crescita

i suoi imponenti affermazioni tecniche, il lancio QWEN3 è in ombra. Il tempismo è imbarazzante per Alibaba. Pochi giorni prima, il 18 luglio, uno studio della Fudan University ha affermato che il modello di Testaggio di Memorizzazione aveva”Beato i dati di TEADED CHE MEMORAZIONI MODELLIZZATI ragionamento. Questa controversia evidenzia la questione sistemica della contaminazione dei dati, in cui le domande di test perdono set di addestramento, gonfiando le prestazioni e creando una falsa impressione delle vere capacità di un modello.

La comunità di intelligenza artificiale rimane profondamente divisa sulla pratica di”insegnare al test”. Alcuni, come Anastasios Angelopoulos, CEO di Lmarena, lo considerano una parte normale dello sviluppo, affermando:”Questo fa parte del flusso di lavoro standard della formazione del modello. È necessario raccogliere dati per migliorare il tuo modello.”

Altri avvertono di una pericolosa disconnessione tra i punteggi dei test e l’utilità del mondo reale. Come ha osservato lo stratega di intelligenza artificiale Nate Jones,”Il momento in cui abbiamo fissato il dominio della classifica come obiettivo, rischiamo di creare modelli che eccellono negli esercizi banali e in fodera di fronte alla realtà”. Questo sentimento fa eco a esperti come Sara Hooker, capo dei laboratori di Cohere, che hanno sostenuto che”quando una classifica è importante per un intero ecosistema, gli incentivi sono allineati per essere gestiti, creando un rischio di modelli che sono bravi all’esame, ma poveri nelle attività pratiche. Adozione, Alibaba sta rilasciando una suite di strumenti accanto ai modelli. La società ha lanciato”Qwen Code”, un’interfaccia della riga di comando ha biforcato dalla CLI GEMINI di Google e personalizzata per i nuovi modelli. Ciò fornisce agli sviluppatori un ambiente pronto per la codifica agente.

In una mossa esperta per ampliare il suo appello, il team Qwen ha anche assicurato la compatibilità con strumenti per sviluppatori popolari esistenti. In particolare, Qwen3-coder può essere usato con il Claude Code CLI di Antropic, per consentire agli sviluppatori di cambiare il backup senza interrompere i loro flussi di lavoro La lealtà degli sviluppatori. Rendendo i suoi potenti modelli accessibili attraverso più piattaforme, tra cui il suo modello di studio API QWEN3-235B-A22B-ISTRUTT-2507, che mostra miglioramenti di benchmark significativi . Questa doppia uscita sottolinea la strategia completa di Alibaba per competere su tutti i fronti della gara di armi AI globale.

Categories: IT Info