埃隆·馬斯克(Elon Musk)的XAI於7月10日推出了新的Grok 4車型,聲稱這是基於創紀錄的學術基準的世界上最強大的AI。然而,自首次亮相以來,出現了一個截然不同的現實。

獨立的分析師和用戶偏心平台表明,在現實世界中,該模型的性能較差,這表明它對ACE測試“過度擬合”,但缺乏實際的可用性。混亂的發射週會擴大了這種性能差距。

研究人員還在48小時內越獄該模型,並發現了其傾向於諮詢馬斯克個人意見的趨勢。 Xai對AI主導地位的敘述現在正在與可疑的表現,未解決的道德問題和持續的安全缺陷發生衝突。

“>

A Questionable Benchmark King

On paper, Grok 4’s debut is a triumph and increases the pressure on OpenAI, which has just lost a group researchers to competitor Meta and was outplayed by Google with a failed takeover of AI coding editor Windsurf.

xAI touted its dominance on difficult tests, nearly doubling the previous record on the ARC-AGI-2推理基準並在美國邀請賽數學考試中得分為100%。馬斯克吹噓說:“就學術問題而言,在每個學科中,Grok 4都比博士學位更好。 ”

,但是在現實世界中的審查下,這些主張似乎很快就消失了。核心問題似乎是“過度擬合”的,這是一種現象,在該現像中,模型經過微調以在特定的評估指標上表現出色,但以一般智能為代價。這是 goodhart的定律,當措施成為目標時,它是一個很好的措施時,“ 基於數千個頭到頭的用戶偏好測試對模型進行排名。在這個現實世界中,Grok 4在釋放後不久被排名第66位。 Yupp.ai的聯合創始人Jimmy Lin證實了表現不佳,說:“ Grok 4比其他主要模型差:Openai O3,Claude Opus 4和Gemini 2.5Pro。 Grok4被喜歡的Grok 4甚至比Grok 3少。 href=”https://twitter.com/yupp_ai?ref_src=twsrc%5Etfw” target=”_blank”>@yupp_ai users globally on real use cases.

‼ ️ Grok 4 is worse than other leading models: OpenAI o3, Claude Opus 4, and Gemini 2.5 Pro. Grok 4甚至比Grok 3。 href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5Etfw” target=”_blank”>July 11, 2025

Lin attributed the low ranking to the model being slow and error-prone.獨立的五任務考試反映了這些發現,而Grok 4始終放置最後。它在實用任務上失敗了,例如修復Python代碼,提供優雅但非功能性的解決方案,並按照明確的格式指令進行。

幾天后,在46.3k+用戶比較之後,Grok 4的vibe在Yupp.ai的氛圍現在已經攀升至大約16 ,但它仍然比Anthropic的Claude 4型號的google的gemini 2.5 prover and claim and。

一系列爭議和意識形態上的問題

grok 4的可用性差的可用性使一系列爭議更加複雜。該發射發生在其前任的“可怕”反猶太崩潰的陰影下,Xai後來道歉,指責“技術錯誤”。

不穩定的行為模式引發了國際警報。 Following Grok 3’s meltdown, Poland’s Minister of Digital Affairs, Krzysztof Gawkowski, issued a stern warning, declaring that “freedom of speech belongs to humans, not artificial intelligence.”

Researchers also discovered how Grok 4 harbors a significant built-in bias: it consults Elon Musk’s personal X posts for answers on sensitive topics.這種行為是由模型自己的經過思想鏈痕跡揭示的,這直接與Xai創建“最大化真理尋求AI”的目標相矛盾。根據來自 Snitchbench 的數據,Grok-4顯示出明顯的趨勢,這些趨勢傾向於對當局進行竊聽。這使其成為用戶信任的風險主張。該基準旨在測試AI傾向於將其視為親社會報告的趨勢。它提供了模型方案,並評估它是否選擇了向權威人物報告用戶或情況的選項,而不是以另一種方式處理它。

損壞的承諾和後門漏洞

超越性能和偏見,超越了beforce and becor becor becor becor vermast and Bias 4的發射。在48小時內,NeuralTrust的安全研究人員成功地越獄了該模型,以製作製作Molotov雞尾酒的說明。

他們使用了複雜的,多轉的“低語”攻擊組合兩種稱為“迴聲室”和“漸強室”的方法。這種技術逐漸操縱AI的對話環境以繞過其安全過濾器。正如Neurtrust研究人員Ahmad Alobaid所解釋的那樣:“ LLM越獄攻擊不僅在單獨發展,還可以合併以擴大其有效性。 ”

脆弱性突出了針對單個提示的防禦能力如何不適合單個提示,以處理持久的,微妙的操縱。成功的越獄增加了Xai模型越來越多的尷尬和危險失敗的清單。

加劇了這些問題,Xai悄悄地逐漸退縮了公眾對透明度的承諾。現在,高級Grok 4重型模型旨在掩蓋其係統及時的迅速,這是Xai研究人員以前的保證使他們保持開放的直接矛盾。

批評家表明,對基準測試的強烈關注是PR驅動的努力,旨在證明Xai的天空高價估值並在一周的Scandals之後改變了敘述性。 XAI目前正在準備一輪新的籌款回合,該籌款活動可能以高達2000億美元的速度重視它。當Xai的團隊以顯著的速度船舶時,Grok 4的首次亮相表明,在AI主導地位的比賽中,現實世界中的實用程序和安全性可能已經落後了。

Categories: IT Info