Xai i Elon Musk nisi një model të ri të kodimit të AI, `Grok-Code-Fast-1`, të enjten, duke hyrë në tregun e kodifikimit të agjentëve të ashpër konkurrues sipas raportimeve. Fillimi pozicionon mjetin e saj të ri si një opsion”i shpejtë dhe ekonomik”i krijuar për detyrat e zhvilluesve të përditshëm, duke synuar të sfidojë lojtarët si Openai dhe Microsoft sipas njoftimit të tij zyrtar. Kjo lëvizje nxehet në vazhdim e”Luftërave të Benchmark”, ku kompanitë garojnë pa mëshirë për rezultatet më të larta në testet e performancës në një konkurs të ashpër. vjen nën një kontroll në rritje nga komuniteti i zhvilluesve. Si një kampion tjetër i standardeve, por si një mjet i krijuar me qëllim i krijuar për të zgjidhur një zhgënjim të zhvilluesit thelbësor: Shpejtësia. Target=”_ bosh”> flukset e punës të kodimit agjent , ku sythe përsëritëse të arsyetimit dhe thirrjeve të mjeteve mund të bëhen të ngadalta frustruese. Modeli i ri u krijua nga toka për të qenë një “shofer ditor” i shkathët dhe i përgjegjshëm për zhvilluesit e angazhuar në këto detyra të zakonshme.

Për ta arritur këtë, Xai thotë se ndërtoi modelin nga e para me një arkitekturë të re. Procesi i zhvillimit përfshin montimin e një korpusi para trajnimit të pasur me përmbajtje të lidhura me programimin dhe kurimin e të dhënave me cilësi të lartë pas trainimit që pasqyrojnë kërkesa tërheqëse të botës reale dhe detyra të kodimit sipas njoftimit zyrtar . Python, Java, Rust, C ++, dhe Go, dhe u rafinua posaçërisht për mjete të zakonshme të zhvilluesve të zakonshëm si GREP, Terminal, dhe Redaktimi i Dosjeve. Kjo është përmirësuar më tej nga optimizimet e shpejtë të ruajtjes që arrijnë rregullisht norma hit mbi 90% kur përdoren me partnerët e nisjes, sipas Xai.

Ky përqendrim në performancën është çiftuar me një strategji agresive ekonomike. Kompania shprehet,”forca e saj qëndron në ofrimin e performancës së fortë në një faktor të formës ekonomike, kompakte, duke e bërë atë një zgjedhje të gjithanshme për trajtimin e detyrave të zakonshme të kodimit shpejt dhe me kosto efektive.”Kjo reflektohet në çmimin e saj prej vetëm 0.20 dollarë për milion shenja hyrëse, 1.50 dollarë për prodhim dhe 0.02 dollarë për inputet e ruajtura, duke nënvlerësuar ndjeshëm shumë rivalë në një treg të mbushur me njerëz. Modeli, i cili u testua në heshtje nën emrin e koduar `Sonic`, po ofrohet falas për një kohë të kufizuar përmes një grupi platformash, duke përfshirë GitHub Copilot, kursorin dhe Windsurf. Mario Rodriguez, Zyrtari Kryesor i Produkteve të Github, vuri në dukje,”Në testimin e hershëm, GROK CODE FAST ka treguar shpejtësinë dhe cilësinë e tij në detyrat e kodimit agjent,”duke sinjalizuar vlefshmërinë e industrisë së hershme për qasjen e Xai. Supremacia në tabelën e SWE-Bench, vlerësimi kryesor i industrisë për agjentët e kodimit të AI. Fillimi raportoi një rezultat të respektueshëm 70.8% në”nënbashkësinë e plotë të SWE-Bench-Verifikuar”duke përdorur parzmore të tij të testimit të brendshëm, një rezultat që, ndërsa nuk e bën rekord, e vendos atë fort në nivelin e lartë të një fushe të mbushur me njerëz. Inxhinieri e softuerit në botë reale.”

Fokusi intensiv i industrisë në SWE-Bench është për arsye të mirë. Për dallim nga testet sintetike që matin aftësi të izoluara, është një vlerësim i kërkuar që pasqyron realitetin kompleks, me shumë hapa të zhvillimit të softuerit. Secila detyrë rrjedh nga një çështje aktuale e GitHub që gjendet në një nga 12 depot e Pitonit të Hapur me burim të hapur. Kjo e bën atë një provë të vërtetë të aftësive inxhinierike praktike të një agjenti. Raundi i fundit filloi në 5 gusht, kur Antropic njoftoi Claude Opus 4.1 të ri të tij kishte arritur një rezultat të atëhershëm të artit prej 74.5% në standardin.

mbretërimi i Antropikut, megjithatë, ishte jashtëzakonisht i shkurtër. Vetëm dy ditë më vonë, më 7 gusht, Openai kundërshtoi fillimin e GPT-5 të tij të shumëpritur, duke pretenduar se flamuri i saj i ri kishte tejkaluar ngushtë rivalin e tij me një normë suksesi 74.9%, duke kapur menjëherë vendin e parë. Fusha është e komplikuar më tej nga prania e konkurrentëve më të vegjël, por të fuqishëm. Ky peizazh i trazuar dhe i mbushur me njerëz është arena në të cilën XAI tani ka vendosur në mënyrë strategjike pretendentët e saj të ri, të përqendruar në shpejtësi. Nisja GPT-5 e Openai ishte një shembull kryesor. Megjithë rezultatin e tij të përcaktimit të rekordeve, modeli u rrënua nga një seri gabimesh të çuditshme dhe gabime faktike pas fillimit të tij. Se”një”autoswitcher”i gabuar midis mënyrave të brendshme të modelit e kishte bërë atë për një kohë më të gjatë-të duket se është dumber”sesa synohej”, duke fajësuar një të metë teknike për performancën e dobët. Ky shkëputje ka nxitur skepticizëm të gjerë për vlerën e standardeve.

Xai nuk është i huaj për këtë kritikë. Modeli i tij i mëparshëm, Grok 4, u kritikua gjithashtu se ishte i mbivendosur në teste akademike ndërsa dështoi në skenarë praktikë. Jimmy Lin, bashkëthemelues i platformës së përdoruesit-Preferencës Yupp.ai, deklaroi në mënyrë të hapur,”Grok 4 është më keq se modelet e tjera kryesore: Openai O3, Claude Opus 4, dhe Gemini 2.5 Pro. Grok 4 duket se është edhe më pak se GROK 3.”Duke i dhënë përparësi shpejtësisë, kostos dhe përdorshmërisë për detyrat agjentë, kompania po bën një bast strategjik që shërbimi i botës reale do të ketë më shumë rëndësi për zhvilluesit sesa një vend i parë në një drejtues në garën aktuale të agjentëve të AI.

Në fund të fundit, strategjia e Xai është një kumar i llogaritur. Duke anashkaluar një konfrontim të drejtpërdrejtë në krye të drejtuesve të performancës, kompania po beton se një segment i madh i tregut të zhvilluesve do t’i japë përparësi shpejtësisë dhe kostos për detyrat e përditshme të agjentëve mbi të pasur në dispozicion modelin më të fuqishëm-dhe potencialisht të paqëndrueshëm.

Categories: IT Info