在激烈的AI至上競賽中,埃隆·馬斯克(Elon Musk)的Xai直接瞄準了競爭對手的人類。一份新報告顯示,7月初,Xai聘請了承包商以一個明確的目標來訓練其Grok模型:在公共編碼排行榜上擊敗Anthropic的Claude。
內部文件告訴工人在規模AI平台上告訴工人,以幫助Grok攀升有影響力的WebDev Arena的等級。此舉表明了AI實驗室對頂級公共基準的巨大壓力,這是吸引投資和客戶的關鍵記分牌。
相關: Grok 4只是一個基準的贏家嗎? Xai的旗艦型號增加了危險信號,似乎大量擬合得很好地得分
”
This focus comes as Grok 4’s real-world performance faces tough questions from users.
A Battle Fought on Public Leaderboards
該戰略強調了公共排行榜在塑造AI敘事方面的巨大影響。對於XAI,Anthropic和OpenAI等實驗室,LMARENA等受人尊敬的圖表上的排名第一可以直接轉化為媒體嗡嗡聲,企業合同和更高的估值。
目標的選擇是說明的。 Anthropic一直將其Claude模型定位為頂級編碼助手,這一主張得到了強大的基準表演和開發人員採用的支持。這使他們成為擊敗的事實上的競爭對手。
標準實踐或遊戲系統?
對特定測試格式的模型進行深入訓練的實踐提出了問題。這是改進模型的合法方法,還是僅僅是對測試進行排名的測試? AI社區在這個問題上仍然存在分歧。
一些專家將其視為開發週期的正常部分。 LMARENA的首席執行官Anastasios Angelopoulos將其視為標準程序,並告訴Business Insider:“這是模型培訓的標準工作流程的一部分。您需要收集數據以改善模型。 “從這個角度來看,使用排行榜數據查找和修復弱點是邏輯上的一步。
但是,其他人更持懷疑態度,警告說,對指標的過度關注會導致結果扭曲。 Cohere Labs負責人薩拉·胡克(Sara Hooker)認為:“當排行榜對整個生態系統很重要時,激勵措施就會使其保持一致。 ”
這不僅僅是理論上的關注。 In April, Meta faced accusations of gaming leaderboards after a variant of its Llama 4 Maverick model used for benchmarking differed from the public version, sparking debate among researchers.
The Widening Gap Between Benchmarks and Reality
This intense focus on benchmarks appears to be creating a gap between how models perform on tests and how they function in the real world.這是古哈特定律的一個經典示例,一旦成為主要目標,措施就不再有用。
grok 4的發射提供了揭示的例證。儘管Xai在學術考試中吹捧了破紀錄的分數,但其實際表現立即受到質疑。在依賴於正面比較的用戶挑選平台yupp.ai上,Grok 4最初排名第66位。
yupp.ai聯合創始人吉米·林(Jimmy lin)坦率地說:“ Grok 4比其他領先的模型更差:openai o3,openai o3,openai o3,claude opus 4,claude opus 4,and gemini and gemini 2.5 pre og grok dies faced pre ogh nise dis.5 is og grok f.5。這種糟糕的表現歸因於該模型在現實情況下緩慢而容易出錯。截至7月中旬,Grok 4在Webdev競技場上攀升至第十二名,仍落後於人類的模型。
WebDev競技場排行榜(07/22/2025)
這種脫節的人擔心許多行業觀看者。 AI戰略家Nate Jones 在他的新聞通訊中寫道>在他的新聞通訊中寫道,“當我們將標題佔優勢設置為“我們將排行榜占主導地位”設置為“我們在努力中”進行實現和鍛煉的模型。對於開發人員而言,這意味著考試的模型可能仍會在他們需要執行的實用編碼任務中失敗。
高賭注和陷入困境的推出
,對排行榜優勢的推動不僅僅是吹牛權利。據報導,這項努力是在Xai尋求新的籌款回合,可以將其重視多達2000億美元,使積極的頭條成為戰略性資產。
在基准上執行的壓力與Grok 4的混亂啟動週相吻合,這是由安全性偏見的策略和策略的策略
AI實驗室正在玩的高風險遊戲,該遊戲由基準圖表驅動的主導地位與模型的實際實用性一樣重要。