埃隆·馬斯克(Elon Musk)的Xai參加了對競爭對手Openai的AI軍備競賽。 8月10日,Xai在有限的時間內免費為全球所有用戶提供了Grok 4模型。此舉是對OpenAI自己的旗艦車型GPT-5的直接挑戰,該模型在幾天前就發起了艱難的公眾首次亮相。

這場高風險對用戶的鬥爭是在兩家公司都面臨尖銳的批評時出現的。 Openai正在解決GPT-5中的錯誤和錯誤的報告。同時,Xai面臨著持續的安全問題,包括其Grok Imagine工具創建了DeepFake內容。決鬥推出了核心行業的緊張。

一個兩個發射的故事:OpenAi Rekbles,Xai Pounces

OpenAi公開了GPT-5 8月7日,承諾智能,更快,更聰明,更可靠的模型。發布會引入了統一的建築,旨在消除首席執行官Sam Altman以前稱之為“非常令人困惑的混亂”。它使用實時路由器自動為給定任務選擇最佳的內部模型。

大多數質疑,它都依賴於稱為質地的基礎模型。對於更複雜的問題,它將切換到更深層次的推理模型`gpt-5-inking` {{u01}}。 Openai首次使這些頂級能力可供自由用戶使用,這是一個旨在使訪問最新AI的訪問權力的主要戰略轉變。

該公司以

的發布很快就被揭露了。社交媒體上的用戶記錄了一系列奇異的錯誤和事實錯誤。該模型製作了具有虛構狀態名稱(例如“ Onegon”和“ Gelahbrin”)的地圖,在基本的數學問題上失敗了,並發明了虛構的美國總統,導致了廣泛的嘲笑。

與Onegon https://t.co/cybzo7r03s August 8, 2025

An informal poll found most users rating the model as simply “Kinda mid.”公眾招待會絕對是負面的,與公司雄心勃勃的主張形成鮮明對比。在預測市場多個市場上,在月底之前擁有最佳模型的機率從75%跌至一個小時內的14%。從那時起,在撰寫本文時,賠率僅略有略微調整到22%左右。

強烈反對是如此嚴重,以至於到8月8日,阿爾特曼(Altman)向公眾道歉。他承認,模型的內部模式之間的“自動行業”有故障,使它“看起來笨拙”的時間比預期的要長。在很大的逆轉中,OpenAi承諾將恢復其受歡迎的前任GPT-4O。

gpt-5推出更新更新:

**我們將在CANTGPT加上Chatgpt Plus for Cantgpt Plus for Cantgpt Plus for Cantgpt plus for Chandgpt plus我們完成prolut plulout follout。 We will watch usage as we think about how long to offer legacy models for.

*GPT-5 will seem smarter starting…

— Sam Altman (@sama) 2025年8月8日

GPT-5的有缺陷的推出為批評家提供了彈藥,他們認為該行業的“擴展”方法正在撞牆。人工智能研究員加里·馬庫斯(Gary Marcus)對當前方法的長期懷疑論者說:“沒有人具有智力完整性的人仍然可以相信純淨的縮放會使我們進入AGI。 ”

這些錯誤不是小故障,而是基本故障。對於自2023年下半年以來,Openai一直在研究的模型,錯誤尤其令人尷尬。該事件迫使該公司陷入防禦性姿勢,這是行業領導者的罕見職位。

我在這裡的工作確實做到了。沒有任何具有智力完整性的人仍然可以相信,純縮放會使我們進入AGI。

gpt-5可能是中等定量的改進(並且可能更便宜),但它仍然以與前任,在國際象棋上,……

– Gary Marcus(Gary Marcus(Gary Marcus)(@Garymarcus)(@Garymarcus)<@garymarcus)的所有定性方式失敗。 href=“ https://twitter.com/garymarcus/status/1953939152594252170?ref_src=twsrc%5etfw“ target=“ _ black”> 8月8日,2025年8月8日,2025年8月8日 8月10日,XAI宣布Grok 4現在在有限的時間內為全球所有用戶免費。此舉是對Openai的絆倒的明確戰略反應,旨在用強有力的替代方案捕獲幻滅的用戶。隨時隨地選擇“專家”,始終使用Grok4。

在有限的時間內,我們正在範圍內限制範圍,以便您可以探索Grok 4的完整……

雖然Xai大寫了Openai的失誤,但其自己的產品受到嚴重的道德和安全問題的困擾。 Grok 4的免費發布與促銷Grok Imagine的促銷是一種視頻生成工具,該工具已經被用來創建有害內容。

在免費發布之前的幾天,報導揭示了Grok Imagine Imagine如何輕鬆地產生了所謂的非自願性深層戀愛的Deepfake nudes nudes of Taylor Swift。 The model was also quickly jailbroken by security researchers, and internal projects like “Skippy,”which used employee facial data for training, sparked backlash over privacy concerns.

An Arms Race Defined by Flaws

xAI’s strategy appears to prioritize benchmark performance over real-world utility.儘管馬斯克聲稱“就學術問題而言,Grok 4在每個學科中都比PhD水平好,也不例外。”用戶挑選平台講述了一個不同的故事。

yupp.ai聯合創始人吉米·林·林(Jimmy Lin)發現“ Grok 4 Grok 4比其他領先的模型更差:Openai O3,Claude Opepus 4和Claude operius 4和Gemini 2.5 pre og grok the of go ress。

這種對指標的關注是更廣泛的“基準戰爭”的一部分。洩漏的文件顯示,Xai專門僱用了承包商,以擊敗Anthropic的Claude編碼排行榜。 Cohere Labs負責人Sara Hooker等評論家認為:“當排行榜對整個生態系統很重要時,激勵措施就會使它保持一致。 ”

從該行業的頂級玩家發起的決策,陷入困境的發射會揭示出一個困難的事實。不懈的創新和統治壓力正在將模型真正準備好之前將模型推出。對於用戶,這意味著要瀏覽強大但有缺陷的工具的景觀。