Ang Xai ng Elon Musk ay naglunsad ng isang bagong modelo ng coding ng AI,’Grok-Code-Fast-1`, noong Huwebes, na pumapasok sa mabangis na merkado ng ahente ng coding ayon sa mga ulat. Ang posisyon ng startup ay ang bagong tool nito bilang isang”mabilis at matipid”na pagpipilian na idinisenyo para sa pang-araw-araw na mga gawain ng developer, na naglalayong hamunin ang mga manlalaro tulad ng OpenAI at Microsoft ayon sa opisyal na anunsyo nito. Ang paglipat na ito ay nagpapainit sa patuloy na AI”Benchmark Wars,”kung saan ang mga kumpanya ay walang tigil na nakikipagkumpitensya para sa mga nangungunang marka sa mga pagsubok sa pagganap sa isang mabangis na kumpetisyon. ay nasa ilalim ng pagtaas ng pagsisiyasat mula sa pamayanan ng developer. Benchmark Champion, ngunit bilang isang tool na itinayo na layunin na idinisenyo upang malutas ang isang pagkabigo sa developer ng pangunahing: bilis. target=”_ blangko”> ahente ng coding ng mga daloy ng trabaho Ang bagong modelo ay ininhinyero mula sa lupa hanggang sa maging isang walang kabuluhan at tumutugon na”pang-araw-araw na driver”para sa mga developer na nakikibahagi sa mga karaniwang gawain na ito. Ang proseso ng pag-unlad ay kasangkot sa pag-iipon ng isang pre-training corpus na mayaman na may nilalaman na may kaugnayan sa programming at curating high-kalidad na mga datasets na post-training na sumasalamin sa mga kahilingan sa real-world pull at mga gawain ng coding Ang Python, Java, Rust, C ++, at Go, at partikular na pinino upang master ang mga karaniwang tool ng developer tulad ng grep, terminal, at pag-edit ng file. Ito ay karagdagang pinahusay ng agarang pag-optimize ng caching na regular na nakamit ang mga rate ng hit sa itaas ng 90% kapag ginamit sa mga kasosyo sa paglulunsad, ayon kay Xai. Ang kumpanya ay nagsasaad,”Ang lakas nito ay namamalagi sa paghahatid ng malakas na pagganap sa isang matipid, compact form factor, ginagawa itong isang maraming nalalaman na pagpipilian para sa pagharap sa mga karaniwang gawain ng coding nang mabilis at epektibo ang gastos.”Ito ay makikita sa pagpepresyo lamang ng $ 0.20 bawat milyong mga token ng input, $ 1.50 para sa output, at $ 0.02 para sa mga naka-cache na input, na makabuluhang sumasaklaw sa maraming mga karibal sa isang masikip na merkado. Ang modelo, na tahimik na nasubok sa ilalim ng codename na `sonic`, ay inaalok nang libre para sa isang limitadong oras sa pamamagitan ng isang hanay ng mga platform, kabilang ang GitHub copilot, cursor, at windsurf. Si Mario Rodriguez, ang punong opisyal ng produkto ng Github, ay nabanggit,”Sa maagang pagsubok, ang Grok Code Fast ay nagpakita ng parehong bilis at kalidad nito sa mga gawain ng ahente ng coding,”Ang pag-sign ng maagang pagpapatunay ng industriya para sa diskarte ni Xai. Sa leaderboard ng SWE-Bench, ang pangunahing pagsusuri ng industriya para sa mga ahente ng coding ng AI. Ang startup ay nag-ulat ng isang kagalang-galang na 70.8% na marka sa”buong subset ng SWE-Bench-verified”gamit ang sarili nitong panloob na pagsubok sa pagsubok, isang resulta na, habang hindi record-breaking, inilalagay ito nang mahigpit sa tuktok na tier ng isang masikip na larangan. Real-world software engineering.”

Hindi tulad ng mga pagsubok sa sintetiko na sumusukat sa mga nakahiwalay na kasanayan, ito ay isang hinihingi na pagsusuri na sumasalamin sa kumplikado, multi-hakbang na katotohanan ng pag-unlad ng software. Ang bawat gawain ay nagmula sa isang aktwal na isyu sa GitHub na matatagpuan sa isa sa 12 malawak na ginagamit na open-source na mga repositori ng Python. Ginagawa nitong tunay na pagsubok ng mga praktikal na kakayahan sa engineering ng ahente. Ang pinakabagong pag-ikot ay nagsimula noong Agosto 5, nang ipahayag ng Anthropic ang bagong Claude Opus 4.1 ay nakamit ang isang pagkatapos ng state-of-the-art score na 74.5% sa benchmark. Pagkaraan lamang ng dalawang araw, noong Agosto 7, si Openai ay nakipag-ugnay sa paglulunsad ng mataas na inaasahang GPT-5, na inaangkin ang bagong punong barko na makitid na lumampas sa karibal nito na may 74.9% na rate ng tagumpay, na agad na nasamsam ang tuktok na puwesto. Ang patlang ay karagdagang kumplikado sa pamamagitan ng pagkakaroon ng mas maliit ngunit malakas na mga kakumpitensya. Ang magulong at masikip na tanawin na ito ay ang arena na kung saan ang Xai ngayon ay madiskarteng inilagay ang bago, bilis na nakatuon sa bilis na ito. Ang paglulunsad ng GPT-5 ng OpenAi ay isang pangunahing halimbawa. Sa kabila ng marka ng setting ng record nito, ang modelo ay sinaktan ng isang serye ng mga kakaibang mga bug at mga makatotohanang mga pagkakamali kasunod ng paglulunsad nito.”Ang isang faulty’autoswitcher’sa pagitan ng mga panloob na mode ng modelo ay ginawa ito sa mas mahabang oras na’tila paraan ng dumber’kaysa sa inilaan,”na sinisisi ang isang teknikal na kapintasan para sa hindi magandang pagganap. Ang pagkakakonekta na ito ay nag-gasolina ng malawak na pag-aalinlangan tungkol sa halaga ng mga benchmark. Ang nakaraang modelo nito, ang Grok 4, ay binatikos din dahil sa overfitted sa mga pagsubok sa akademiko habang nabigo sa mga praktikal na sitwasyon. Si Jimmy Lin, co-founder ng platform ng gumagamit-preference na si Yupp.ai, bluntly sinabi,”Ang Grok 4 ay mas masahol kaysa sa iba pang mga nangungunang modelo: ang Openai O3, Claude Opus 4, at Gemini 2.5 Pro. Grok 4 ay nagustuhan kahit na mas mababa sa Grok 3.”Sa pamamagitan ng pag-prioritize ng bilis, gastos, at kakayahang magamit para sa mga gawain ng ahente, ang kumpanya ay gumagawa ng isang madiskarteng pusta na ang real-world utility ay sa huli ay mas mahalaga sa mga developer kaysa sa isang nangungunang lugar sa isang leaderboard sa kasalukuyang lahi ng ahente ng AI.

Sa huli, ang diskarte ni Xai ay isang kinakalkula na sugal. Sa pamamagitan ng pag-sidestepping ng isang direktang paghaharap sa tuktok ng mga leaderboard ng pagganap, ang kumpanya ay nagtaya na ang isang malaking segment ng merkado ng developer ay unahin ang bilis at gastos para sa pang-araw-araw na mga gawain ng ahente sa pagkakaroon ng pinakamalakas-at potensyal na pabagu-bago ng isip-magagamit na modelo.