het Qwen-team van Alibaba heeft dinsdag Qwen3-Coder uitgebracht, een krachtige nieuwe serie open-source AI-coderingsmodellen gericht op rivalen zoals Anthropic. Gekopineerd door een enorme versie van 480 miljard-parameter, zijn de modellen ontworpen voor”Agentisch”werk, waardoor ze autonoom complexe softwareontwikkelingstaken kunnen verwerken.
De wereldwijde release op 22 juli 2025, op qwen3-coder-480b-a35b-instruct , een massief mengsel-van-perperts (MOE) model. Het bevat 480 miljard totale parameters, maar activeert slechts een subset van 35 miljard parameters voor een bepaalde taak. Deze architectuur biedt enorme kracht met behoud van de rekenefficiëntie.
De basis van het model werd gebouwd op een kolossale 7,5 biljoen tokens pre-trainingsgegevens, met een 70%-ratio die specifiek is gewijd aan code. Volgens het QWEN-team was de gegevenskwaliteit van het grootste belang; Ze gebruikten een eerder model, QWEN2.5-Coder, om lawaaierige gegevens synthetisch schoon te maken en te herschrijven voor deze nieuwe generatie.
De technische specificaties zijn formidabel. Het model beschikt over een native 256.000-taken contextlengte, die kan worden uitgebreid tot een miljoen tokens met behulp van extrapolatiemethoden zoals garen. Deze enorme capaciteit is op maat gemaakt voor begrip op repository-schaal, waardoor de AI de volledige context van grote softwareprojecten kan begrijpen.
Dit contextuele bewustzijn wordt gecombineerd met ongelooflijke breedte. Het model ondersteunt een enorme reeks programmeertalen, van reguliere keuzes zoals C ++, Python en Java tot gespecialiseerde talen zoals ABAP, Rust en Swift, zoals gedetailleerd op zijn github page . Hierdoor kan het verschillende ontwikkelingsomgevingen en gespecialiseerde taken aanpakken, zoals”vul-in-the-midden”code-insertie.
Naast pre-training, is Alibaba gericht op geavanceerde technieken na de training. Het team heeft opgehaald wat het noemt codewapening leren (code RL) op een breed scala aan real-world coderingstaken. Deze benadering is gebaseerd op het principe van het aanpakken van problemen die”moeilijk op te lossen zijn, maar gemakkelijk te verifiëren”met uitvoering gedreven feedback om de slagingspercentages aanzienlijk te stimuleren.
Om echt agentisch gedrag te cultiveren, implementeerde het team wat het”Long-Horizon RL”noemt. Dit vereiste het bouwen van een schaalbaar systeem op Alibaba Cloud die in staat is om 20.000 onafhankelijke omgevingen parallel te runnen. Deze infrastructuur biedt de cruciale feedback-lus om het model te leren om te plannen, hulpmiddelen te gebruiken en beslissingen te nemen over complexe, multi-turn interacties.
Volgens prestatiegegevens die zijn vrijgegeven door het QWEN-team, vestigt het nieuwe Qwen3-codermodel zich als een top-lagere agentcodeermodel, het bereiken van state-of-the-the-the-arts-resultaten onder de open-source-planten. Op de SWE-Bench-geverifieerde benchmark, een belangrijke test van real-world software-engineeringmogelijkheden, scoort het QWEN3-codermodel een indrukwekkende 69,6% met 500 beurten van interactie.
Dit plaatst het in directe concurrentie met en bijna op gelijke voet met, het toonaangevende eigen model, Claude-SONNET-4, dat 70,4% onder de vergelijkbare omstandigheden scoorde. Verder presteert Qwen3-Coder aanzienlijk beter dan andere belangrijke modellen in het veld, waaronder Kimi-K2 (65,4%), GPT-4.1 (54,6%) en Gemini-2.5-Pro (49,0%), de race voor agent voor agent. Supremacy
Deze release geeft de agressieve duw van Alibaba aan in de volgende grens van AI: Agentic Intelligence. De industrie gaat snel verder dan eenvoudige code-assistenten naar autonome agenten die kunnen plannen, uitvoeren en zich aanpassen aan complexe, multi-step-ontwikkelingstaken. Qwen3-coder is niet alleen een nieuw model; Het is een strategische toegang tot deze escalerende”wapenwedloop”.
De trend wordt al gevalideerd in de onderneming. Investment Bank Goldman Sachs begon bijvoorbeeld onlangs met het besturen van de AI-agent Devin om een”hybride personeelsbestand”te bouwen. De technische chef, Marco Argenti, beschreef een toekomst waarin”het gaat echt om mensen en AIS die zij aan zij werken. Ingenieurs worden verwacht dat ze de mogelijkheid hebben om problemen op een coherente manier echt te beschrijven…”De menselijke focus verschuiven van saaie codeer naar probleemoplossing op hoog niveau. In de VS onthulde Amazon onlangs zijn Kiro-agent om structuur op te leggen aan chaotische’sfeercodering’, terwijl Google een tweeledige aanval vervolgt met zijn uitgebreide Firebase-studio en een gratis Gemini CLI. OpenAI blijft zijn Codex-agent upgraden, waardoor het onlangs internettoegang geeft om gegevens autonoom gegevens te vinden en te gebruiken.
De concurrentie is net zo intens in de”War of Honderd Models”van China. Qwen3-coder bevindt zich tegen open-source krachtpatsers zoals Moonshot AI, die onlangs zijn 1-biljoen Parameter Kimi K2-model heeft vrijgegeven. Deze binnenlandse rivaliteit wordt gevoed door geopolitieke druk die Chinese bedrijven dwingt om zelfredzame ecosystemen op te bouwen.
De hoge inzet van deze race is duidelijk in de meedogenloze concurrentie voor talent en technologie. Codering Startup Windsurf heeft onlangs Google zijn CEO en toptalent zien pocheren, een Lannen OpenAI-acquisitie aan het verkleinen en de rivaliserende cognitie mogelijk maken om het resterende bedrijf te verwerven.
De strijd strekt zich uit tot publieke perceptie, vaak gevochten op leaderboards. In een duidelijk voorbeeld van deze’benchmarkoorlog’heeft de Xai van Elon Musk onlangs aan contractanten ingehuurd om zijn GROK 4-model te trainen om de Claude van Anthropic te verslaan. The immense operational costs are also a factor, as seen when Anthropic tightened usage limits for its premium subscribers, highlighting the financial strain of providing these powerful services.
A Launch Clouded by Benchmark Skepticism
Despite its impressive technical claims, the Qwen3-Coder launch is shadowed by a growing crisis of trust in AI evaluation. De timing is ongemakkelijk voor Alibaba. Just days earlier, on July 18, a study from Fudan University alleged its Qwen2.5 model had “cheated”on the MATH-500 benchmark.
The paper claimed the model achieved top scores by memorizing test data, not through genuine redeneren. Deze controverse benadrukt de systemische kwestie van gegevensverontreiniging, waarbij testvragen lekken in trainingssets, het opblazen van de prestaties en het creëren van een valse indruk van de ware mogelijkheden van een model.
De AI-gemeenschap blijft diep verdeeld over de praktijk van”lesgeven op de test.”Sommigen, zoals Lmarena CEO Anastasios Angelopoulos, beschouwen het als een normaal onderdeel van de ontwikkeling, waarin staat: “Dit maakt deel uit van de standaard workflow van modeltraining. U moet gegevens verzamelen om uw model te verbeteren.”
Anderen waarschuwen voor een gevaarlijke ontkoppeling tussen testscores en real-world utility. Zoals AI-strateeg Nate Jones opmerkte:”Op het moment dat we leaderboard dominantie stelden als het doel, lopen we het risico modellen te creëren die uitblinken in triviale oefeningen en bot wanneer ze worden geconfronteerd met de realiteit.”Dit sentiment wordt weerspiegeld door experts zoals Sara Hooker, hoofd van CoChere Labs, die betoogden dat”wanneer een leaderboard belangrijk is voor een heel ecosysteem, de prikkels zijn afgestemd om te worden gamed,”het creëren van een risico op modellen die goed zijn in examens maar slecht in praktische taken. Alibaba brengt naast de modellen een reeks tools vrij. Het bedrijf heeft’Qwen Code’gelanceerd, een opdrachtregelinterface gevormd van Google’s Gemini CLI en aangepast voor de nieuwe modellen. Dit biedt ontwikkelaars een kant-en-klare omgeving voor agentische codering.
In een slimme stap om zijn aantrekkingskracht te verbreden, heeft het QWEN-team ook gezorgd voor compatibiliteit met bestaande, populaire ontwikkelaarstools. Met name Qwen3-Coder kan worden gebruikt met Anthropic’s eigen Claude-code CLI, waardoor ontwikkelaars kunnen schakelen zonder hun werk te verstoren het winnen van de loyaliteit van ontwikkelaars. Door zijn krachtige modellen toegankelijk te maken via meerdere platforms, waaronder zijn eigen modelstudio API , Alibaba is ook een bijbehorende model van het gebruik van de markt voor een markt voor een markt voor een markt voor venster in een markt. Qwen3-235B-A22B-Instruct-2507, die toont aanzienlijke benchmarkverbeteringen . Deze dubbele release onderstreept de uitgebreide strategie van Alibaba om te concurreren op alle fronten van de wereldwijde AI-wapenwapens.