A

Alibaba QWEN csapata kedden kiadta a QWEN3-CODER-et, egy hatalmas új, nyílt forráskódú AI kódoló modell sorozatot, amely közvetlenül a riválisoknak szól, mint az antropikus. A hatalmas, 480 milliárd páros verzióval, a modelleket „agentikus” munkához tervezték, lehetővé téve számukra az összetett szoftverfejlesztési feladatok kezelését. A nyitott modellek új szabványának beállítása. Az indítás azonban a mély ipari szkepticizmus közepette is megérkezik az AI referenciaértékek felett, amelyet a közelmúltbeli állítások tápláltak, miszerint az Alibaba másik modellje megcsalt a legfontosabb teljesítményteszteken. href=”https://huggingface.co/qwen/qwen3-coder-480b-a35b-instruct”cél=”_ üres”> qwen3-coder-480b-a35b-instruct , egy hatalmas keverék (MOE) modell. Az összes paramétert 480 milliárd milliárd milliárd milliárd milliárd paramétert tartalmazza, de csak egy 35 milliárd paraméteres részhalmazt aktivál az adott feladathoz. Ez az architektúra óriási energiát biztosít, miközben fenntartja a számítási hatékonyságot. src=”adatok: image/svg+xml; nitro-üres-id=mty0mjoxmte4-1; base64, phn2zyb2awv3qm94psiwidagmti4mca2nj Qiihdpzhropsixmjgwiibozwlnahq9ijy2ncigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>”>”>”>”>”>”>”>”>”>

A modell alapja egy kolosszális 7,5 billió tokenre épült, az előzetes edzés előtti adatokkal, a 70%-os arányban, amelyet kifejezetten a kódnak szenteltek. A QWEN csapat szerint az adatminőség kiemelkedően fontos; Kihasználták egy korábbi modellt, a QWen2.5-kódolót, hogy szintetikusan megtisztítsák és átírják az új generáció zajos adatait.

műszaki előírásai félelmetesek. A modell büszkélkedhet egy natív 256 000-es kontextushosszúsággal, amelyet egy millió tokenre lehet kiterjeszteni extrapolációs módszerekkel, például fonalral. Ezt a hatalmas kapacitást a lerakat-méretarányos megértéshez igazítják, lehetővé téve az AI számára, hogy megértse a nagy szoftverprojektek teljes kontextusát. A modell támogatja a programozási nyelvek hatalmas sorozatát, a mainstream választásoktól kezdve, mint például a C ++, a Python és a Java, a speciális nyelvekig, mint például az ABAP, a Rust és a Swift, amint azt a github oldalon. Ez lehetővé teszi a különféle fejlesztési környezetek és a speciális feladatok kezelését, például a „kitöltés-középső” kód beillesztését. A csapat a valós kódolási feladatok széles skáláján méretezte azt, amit kód-megerősítés tanulásának (Code RL) hívott. Ez a megközelítés arra a célra épül, hogy a „nehéz megoldható, de könnyen ellenőrizhető” kezelési problémákkal foglalkozik, a végrehajtás által vezérelt visszajelzések felhasználásával, hogy jelentősen fellendítsék a sikert. Ehhez egy skálázható rendszer felépítéséhez szükséges az Alibaba Cloud-on, amely képes párhuzamosan 20 000 független környezetet futtatni. Ez az infrastruktúra kritikus visszacsatolási hurkot biztosít a modell tanításához, az eszközök megtervezéséhez, az eszközök felhasználásához és a bonyolult, több fordulási interakciók során. A Swe-Sench által ellenőrzött referenciaértéken, a valós szoftverfejlesztési képességek kulcsfontosságú tesztjén a QWEN3-CODER modell lenyűgöző 69,6%-ot szerez, 500 interakcióval. Ezenkívül a QWEN3-CODER szignifikánsan felülmúlja a terület többi fő modelljét, beleértve a KIMI-K2-t (65,4%), a GPT-4,1-et (54,6%) és Supremacy

Ez a kiadás jelzi az Alibaba agresszív beillesztését az AI következő határába: Agentic Intelligence. Az ipar gyorsan halad az egyszerű kód asszisztenseken túl az autonóm ügynökökbe, amelyek megtervezhetik, végrehajthatják és alkalmazkodhatnak az összetett, többlépcsős fejlesztési feladatokhoz. A QWEN3-CODER nem csak egy új modell; Ez egy stratégiai bejegyzés ehhez a fokozódó „fegyverversenyről”.

A tendencia már érvényesül a vállalkozásban. Például a Goldman Sachs befektetési bankja nemrégiben kezdte meg a Devin AI ügynökének pilótáját egy „hibrid munkaerő” felépítésére. Technikai vezetője, Marco Argenti, leírt egy olyan jövőt, ahol „valójában az emberekről és az AIS-ről szól, és egymás mellett dolgoznak. A mérnökök várhatóan képesek lesznek valóban koherens módon leírni a problémákat…” Az emberi fókusz áthelyezése az unalmas kódolástól a magas szintű problémamegoldáshoz. Az Egyesült Államokban az Amazon nemrégiben bemutatta Kiro-ügynökét, hogy struktúrát vezessen a kaotikus „hangulatkódolásra”, míg a Google kétirányú támadást folytat az átfogó Firebase stúdiójával és egy ingyenes Gemini CLI-vel. Az Openai továbbra is frissíti a Codex ügynökét, nemrégiben internet-hozzáférést biztosítva az adatok autonóm megtalálásához és felhasználásához. A QWEN3-CODER olyan nyílt forráskódú erőművek ellen helyezkedik el, mint a Moonshot AI, amely nemrégiben kiadta 1 trillió paraméteres Kimi K2 modelljét. Ezt a háztartási rivalizálást a geopolitikai nyomás táplálja, amely arra készteti a kínai cégeket, hogy önálló ökoszisztémákat építsenek fel. A Startup Windsurf kódolása nemrégiben látta, hogy a Google orvosta a vezérigazgatóját és a Top Talent-t, és egy Lanned Openai akvizíciót vezette, és lehetővé téve a rivális megismerésnek a fennmaradó társaság megszerzését. A „Benchmark War”, az Elon Musk Xai egyértelmű példájában a közelmúltban bérelt vállalkozókat, hogy kifejezetten a Grok 4 modelljének kiképzésére, hogy legyőzzék az Antropic’s Claude-t. A hatalmas működési költségek szintén tényező, amint azt az antropikus szigorított felhasználási korlátok korlátozzák a prémium előfizetői számára, kiemelve a hatalmas szolgáltatások nyújtásának pénzügyi törzsét. Az időzítés kínos az Alibaba számára. Néhány nappal korábban, július 18-án, A Fudan Egyetemen egy tanulmány állította, hogy a QWEN2.5 modellje „csalt” a Math-500 Benchmark-tól. . valódi érvelés. Ez a vita kiemeli az adatok szennyeződésének szisztémás kérdését, ahol a tesztkérdések kiszivárognak az edzőkészletekbe, felfújják a teljesítményt és hamis benyomást keltenek a modell valódi képességeiről. Néhányan, mint például az Lmarena vezérigazgatója, Anastasios Angelopoulos, a fejlesztés normál részének tekintik, kijelentve: „Ez a modellképzés szokásos munkafolyamatának része. A modell javításához adatokat kell gyűjtenie. Ahogyan Nate Jones, az AI stratégia megjegyezte: „Abban a pillanatban, amikor a ranglistán dominanciát a célként állítjuk be, kockáztatunk olyan modellek létrehozását, amelyek kitűnőek a triviális gyakorlatokban, és lepattannak, amikor a valósággal szembesülünk.”Ezt az érzetet olyan szakértők, mint például Sara Hooker, a Cohere Labs vezetője visszhangzik, aki azt állította, hogy „ha egy ranglistán fontos az egész ökoszisztéma számára, akkor az ösztönzők igazodnak ahhoz, hogy ez megnevezze azt”, hogy a vizsgákon jó, de a gyakorlati feladatoknál rossz>

erősen elfogadó modellek kockázatát hozzák létre. Az Alibaba a modellek mellett egy szerszámcsomagot bocsát ki. A vállalat elindította a „QWen kódot”, a Google Gemini CLI-ből származó parancssori felületet, amelyet az új modellekhez testreszabott. Ez lehetővé teszi a fejlesztők számára, hogy kész környezetet biztosítsanak az ügynöki kódoláshoz. Nevezetesen, a qwen3-coder használható az Antropic saját Claude Code cli-jével, lehetővé téve a fejlesztőknek a fejlécek megzavarása nélkül, ha a munkaköröket megzavarnák . A fejlesztők hűségének megnyerése. Azáltal, hogy nagy teljesítményű modelljeit több platformon keresztül elérhetővé teszi, beleértve a saját modell stúdiójának API-t , az Alibaba a feladás és a könnyebb felhasználás megkönnyítése egyre inkább az elfogadást, a felvételi piacon történő felvételi lehetőségeket is felveszi. Qwen3-235b-A22B-instruct-2507, amely szignifikáns Benchmark javulásokat mutat . Ez a kettős kiadás aláhúzza az Alibaba átfogó stratégiáját, hogy a globális AI fegyverkezési verseny minden frontján versenyezzen.

Categories: IT Info