埃隆·馬斯克(Elon Musk)的XAI在周四推出了新的AI編碼模型“ Grok-Code-fast-1″,該模型進入了競爭激烈的代理編碼市場。該初創公司將其新工具定位為專門為日常開發人員任務設計的“快速且經濟的”選項,旨在根據其官方公告來挑戰OpenAI和Microsoft等玩家。
該模型通過包括Github Copilot和Cursor在內的合作夥伴免費發布,該模型在有限的時間內免費發布。 This move heats up the ongoing AI “benchmark wars,”where companies relentlessly compete for top scores on performance tests in a fierce competition.
This race unfolds even as the practical reliability of new models, like OpenAI’s recently troubled GPT-5, comes under開發人員社區的審查越來越大。 benchmark champion, but as a purpose-built tool designed to solve a core developer frustration: speed.
The company argues that while many powerful models exist, they often feel sluggish in 代理編碼工作流,推理和工具調用的迭代循環可能會變得令人沮喪。該新模型是從頭開始設計的,是從事這些常見任務的開發人員的靈活和響應迅速的“日常驅動程序”。
實現這一目標,Xai說,它使用全新的體系結構從頭開始構建了該模型。開發過程涉及組裝富含編程的內容的培訓前語料庫,並策劃反映現實世界中拉的請求和編碼任務
該模型的響應能力是XAI推理和超級計算團隊的幾項創新的結果,創造了獨特的體驗體驗。根據XAI的說法,與發射合作夥伴一起使用時,迅速緩存優化的迅速緩存優化會進一步增強,
這種關注的重點與積極的經濟策略相結合。該公司指出:“它的優勢在於在經濟,緊湊的外觀方面表現出色,這使其成為快速和成本效率地處理常見編碼任務的多功能選擇。 “這反映在其價格僅為每百萬美元的投入令牌,1.50美元的價格,產出1.50美元,緩存輸入的0.02美元,在擁擠的市場中大大削弱了許多競爭對手。
推動採用,XAI正在採用廣泛的合作夥伴關係策略。該模型在代號“聲音”下進行了悄然測試,該模型通過包括Github Copilot,Cursor和Windsurf在內的一系列平台免費提供了有限的時間。 Mario Rodriguez, GitHub’s Chief Product Officer, noted, “in early testing, Grok Code Fast has shown both its speed and quality in agentic coding tasks,”signaling early industry validation for xAI’s approach.
The SWE-Bench Gauntlet: A New Coding Champion Every Week
xAI’s entry intensifies what has become a frantic and high-stakes battle for在SWE-Bench排行榜上,該行業對AI編碼代理的首要評估。該初創公司報告了使用其自身的內部測試線束在“ SWE Benched驗證的全部子集”上獲得70.8%的得分,這一結果雖然沒有記錄記錄,但將其牢牢地置於擁擠的領域的最高層次。
在公告中,Xai很快就可以添加了一個重要的腦袋,並沒有提供任何有價值的局面。現實世界中的軟件工程。”
該行業對 swe-bench 是有充分理由的理由。與衡量孤立技能的合成測試不同,這是一項苛刻的評估,反映了軟件開發的複雜,多步驟的現實。每個任務均來自12個廣泛使用的開源Python存儲庫之一中的一個實際GITHUB問題。
成功,AI代理必須推理,計劃和正確編輯代碼,通常是跨多個文件,即像人類開發人員一樣,沒有任何快捷方式。這使其成為對代理商實用工程能力的真正測試。
這場比賽的步伐變得令人眼花saiz亂,在8月初的幾天內,“最佳編碼模型”的標題是“最佳編碼模型”的標題。最新一輪比賽始於8月5日,當時人類宣布其新的Claude Opus 4.1在基準測試中取得了當時最先進的分數為74.5%。
Anthropic的統治時期非常短暫。僅僅兩天后的8月7日,Openai與其備受期待的GPT-5發起了反擊,聲稱其新的旗艦店以74.9%的成功率以74.9%的成功率超越了對手,立即佔據了最高位置。
這個快速射擊的一系列公告,因為正式的Swe-Bench網站在公司中的正式統治而變得不利,因此造成了一個不合時宜的人,這是一個不合時宜的人。
ai啟動Qodo的存在使該領域更加複雜。這種動盪而擁擠的景觀是Xai現在戰略性地放置了其新的,以速度為重點的競爭者的舞台。
基準測試至高無上與現實世界中的
,這種對基準標準的無情追求與chae的公共場合模型相反,這是一種相當無情的追求,這與一些chaeation Public Deputs模型相反。 OpenAI的GPT-5發布就是一個很好的例子。 Despite its record-setting score, the model was plagued by a series of bizarre bugs and factual errors following its launch.
The backlash prompted a public apology from CEO Sam Altman, who had previously boasted, “this is the best model in the world at coding… the best model in the world at writing, the best model in the world at health care, and a long list of things beyond that.”
He later admitted that “模型的內部模式之間的一個錯誤的’自動開放式’使它”看起來比預期的’看起來更長的”,”將技術缺陷歸咎於糟糕的性能。這種斷開連接引起了人們對基準值的價值的廣泛懷疑。
xai對此批評並不陌生。它以前的模型Grok 4也因在實際情況下未能進行學術考驗而被批評。用戶挑選平台Yupp.ai的聯合創始人吉米·林(Jimmy Lin)坦率地說:“ Grok 4比其他領先的模型差:OpenAi O3,Claude Opus 4和Gemini 2.5Pro。Grok4被喜歡的Grok 4比Grok 3少。通過優先考慮速度,成本和代理任務的可用性,該公司正在戰略賭注,即現實世界實用程序對開發人員最終將比當前AI Agent Race中的排行榜上的排名第一更重要。
最終,XAI的策略是計算出的賭注。通過避免在績效排行榜頂部進行直接對抗,該公司押注開發人員市場的大部分地區將優先考慮日常代理任務的速度和成本,而不是擁有最強大的(潛在的波動性),並且可用的模型可用。
>