Elon Muskin XAI julkaisi torstaina uuden AI-koodausmallin,”Grok-Code-Fast-1″-tapahtuman, saapuessaan kiihkeästi kilpailukykyisille agenttien koodausmarkkinoille raporttien mukaan. Startup sijoittaa uuden työkalunsa”nopeaksi ja taloudelliseksi”-vaihtoehtona, joka on suunniteltu päivittäisiin kehittäjätehtäviin, joiden tavoitteena on haastaa pelaajat, kuten OpenAi ja Microsoft virallisen ilmoituksensa mukaan.
Malli julkaistaan ilmaiseksi rajoitetun ajan kumppaneiden kautta, mukaan lukien Github Copilot ja Cursor. Tämä siirto lämmittelee meneillään olevia AI: n”vertailuarvojen sotaa”, jossa yritykset kilpailevat säälimättömästi suorituskyvyn testien parhaista tuloksista kovan kilpailun.
tämä kilpailu avautuu , jopa niin käytännöllisestä malleista. Kehittäjäyhteisön lisääntyvän tutkimuksen mukainen Benchmark-mestari, mutta tarkoitukseen rakennettuna työkaluna, joka on suunniteltu ratkaisemaan ydinkehittäjän turhautuminen: nopeus.
Yritys väittää, että vaikkakin monia voimakkaita malleja on olemassa, ne tuntevat usein hitaasti Agentic-koodaus työnkulkut , missä iteratiiviset päättely-ja työkalupuhelut voivat tulla turhauttavasti hidasta. Uusi malli suunniteltiin alusta alkaen ketteräksi ja reagoivaksi “päivittäiseksi kuljettajaksi” kehittäjille, jotka harjoittavat näitä yleisiä tehtäviä.
tämän saavuttamiseksi Xai sanoo, että se rakensi mallin tyhjästä aivan uudella arkkitehtuurilla. Kehitysprosessi sisälsi ennen harjoittelua, jossa on rikas ohjelmointiin liittyvää sisältöä ja korkealaatuisten koulutuksen jälkeisten tietojoukkojen kuratointia, jotka heijastavat reaalimaksuista vetopyyntöjä ja koodaustehtäviä Virallisen ilmoituksen mukaan . Python, Java, Rust, C ++ ja Go, ja sitä tarkennettiin erityisesti yleisten kehittäjätyökalujen, kuten GREP: n, pääte-ja tiedostojen muokkaamiseen.
Mallin reagointikyvyn on ilmoitettu olevan seurausta useista XAI: n päätelmien ja supertietokoneiden innovaatioista, mikä luo ainutlaatuisen sujuva kokemuksen. Tätä lisäävät edelleen nopeat välimuistioptimoinnit, jotka saavuttavat säännöllisesti yli 90%, kun niitä käytetään käynnistyskumppaneiden kanssa, XAI: n mukaan. Yhtiö toteaa, että”sen vahvuus on vahvan suorituskyvyn toimittamisessa taloudellisessa, kompakti muotokerroksessa, mikä tekee siitä monipuolisen valinnan yhteisten koodaustehtävien hoitamiseksi nopeasti ja kustannustehokkaasti.”Tämä heijastuu sen hinnoittelussa vain 0,20 dollaria miljoonalla panosmerkillä, 1,50 dollaria tuotannosta ja 0,02 dollaria välimuistissa olevista panoksista, alittaen merkittävästi monia kilpailijoita tungosta markkinoilla. Malli, joka testattiin hiljaa koodinimellä `Sonic`, tarjotaan ilmaiseksi rajoitetun ajan joukon alustoja, mukaan lukien Github Copilot, kohdistin ja purjelautailu. Githubin päätuotejohtaja Mario Rodriguez totesi: “Varhaisessa testauksessa Grok Code Fast on osoittanut sekä nopeutensa että laadun agenttisissa koodaustehtävissä”, merkitsemällä varhaisen teollisuuden validointia XAI: n lähestymistavalle. Swe-Bench-tulostaulun ylivalta, teollisuuden pääasiallinen arviointi AI-koodausasiamiehille. Startup ilmoitti kunnioitettavan 70,8%: n pistemäärän”Swe-Bench-vahvistuneen”täydellisessä alajoukossa käyttämällä omaa sisäistä testausvaljaaan, mikä johtuu siitä, että vaikka se ei ole ennätyksellinen, se sijoittaa sen tiukasti tungosta kentän huipputasoon. reaalimaailman ohjelmistotekniikka.”
teollisuuden voimakas keskittyminen Swe-Bench on hyvästä syystä. Toisin kuin synteettiset testit, jotka mittaavat eristettyjä taitoja, se on vaativa arvio, joka heijastaa ohjelmistokehityksen monimutkaista, monivaiheista todellisuutta. Jokainen tehtävä on johdettu todellisesta github-ongelmasta, joka löytyy yhdestä 12 laajalti käytetystä avoimen lähdekoodin python-arkistosta.
menestyäkseen, AI-agentin on syytä, suunnitelma ja oikein muokkaus koodi-usein useissa tiedostoissa-vain ihmiskehittäjällä, ilman pikakuvauksia. Tämä tekee siitä todellisen testin agentin käytännön tekniikan ominaisuuksista. Viimeisin kierros alkoi 5. elokuuta, kun Antropic ilmoitti uuden Claude Opus 4.1: n saavuttaneen silloisen huipputeknisen pistemäärän 74,5% vertailukohdassa. Vain kaksi päivää myöhemmin, 7. elokuuta, Openai vastusti hänen erittäin odotettua GPT-5: n käynnistämistä, väittäen, että sen uusi lippulaiva oli kapeasti ylittänyt kilpailijansa 74,9%: n menestysasteella, tarttuen heti kärkipaikkaan. Kenttä on edelleen monimutkainen pienempien, mutta voimakkaiden kilpailijoiden läsnäolo. Tämä turbulentti ja tungosta maisema on areena, johon XAI on nyt strategisesti sijoittanut uuden, nopeuteen keskittyvän kilpailijansa.
vertailuarvojen ylivalta vs. reaalimaailman kompastuminen
Tämä vertailuarvojen hallitsevien malleiden hallitsemattomien julkisten julkisten debyyttien säälimätön harjoittelu. Openain GPT-5-lanseeraus oli erinomainen esimerkki. Huolimatta ennätyspisteistään, mallia vaivaa omituisia virheitä ja tosiasiavirheitä sen julkaisun jälkeen.
Tapahtumakäsitys sai julkisen anteeksipyynnön toimitusjohtajalta Sam Altmanilta, joka oli aiemmin kehutettu: “Tämä on maailman koodauksen maailman paras malli… MAAILMAN MAAILMAN MAAILMAN MAAILMAN MAAILMAN MAAILMAN PAIKAISESTI MAAILMAN PAIKAISEKSI. “Viallinen”automaattinen kytkentä”mallin sisäisten tilojen välillä oli tehnyt siitä pidemmän aikaa”näyttävät siltä, että Dumber”kuin aiottu”syyttäen teknistä virhettä huonosta suorituskyvystä. Tämä katkaisu on edistänyt laajaa skeptisyyttä vertailuarvojen arvosta.
xai ei ole vieras tähän kritiikkiin. Sen aikaisempaa mallia, Grok 4, kritisoitiin myös siitä, että hän oli ylenmääräinen akateemisiin testeihin, kun se epäonnistui käytännön skenaarioissa. Jimmy Lin, käyttäjä-etuusympäristön Yupp.ai-yhtiön perustaja, totesi tylsästi: “Grok 4 on huonompi kuin muut johtavat mallit: OpenAi O3, Claude Opus 4 ja Gemini 2.5 Pro. Grok 4 on jopa vähemmän kuin Grok 3.”Agentillisten tehtävien nopeuden, kustannusten ja käytettävyyden priorisoimalla yritys tekee strategisen panoksen siitä, että reaalimaailman apuohjelma on viime kädessä tärkeämpiä kehittäjille kuin nykyisen AI-agenttikilpailun tulostaulun kärkipaikka. Siirtämällä suoran tulostaulujen huipulla olevan suoran vastakkainasettelun, yritys vedonlyönti on, että suuri segmentti kehittäjamarkkinoista priorisoi päivittäisten agenttien tehtävien nopeuden ja kustannukset siitä, että sillä on saatavilla tehokkaimmat-ja mahdollisesti haihtuvat-Model.