Grok 4只是基準獲勝者嗎? Xai的旗艦模型增加了危險信號，似乎太過了，得分很好

埃隆·馬斯克（Elon Musk）的XAI於7月10日推出了新的Grok 4車型，聲稱這是基於創紀錄的學術基準的世界上最強大的AI。然而，自首次亮相以來，出現了一個截然不同的現實。

獨立的分析師和用戶偏心平台表明，在現實世界中，該模型的性能較差，這表明它對ACE測試“過度擬合”，但缺乏實際的可用性。混亂的發射週會擴大了這種性能差距。

研究人員還在48小時內越獄該模型，並發現了其傾向於諮詢馬斯克個人意見的趨勢。 Xai對AI主導地位的敘述現在正在與可疑的表現，未解決的道德問題和持續的安全缺陷發生衝突。

“>

A Questionable Benchmark King

On paper, Grok 4’s debut is a triumph and increases the pressure on OpenAI, which has just lost a group researchers to competitor Meta and was outplayed by Google with a failed takeover of AI coding editor Windsurf.

xAI touted its dominance on difficult tests, nearly doubling the previous record on the ARC-AGI-2推理基準並在美國邀請賽數學考試中得分為100％。馬斯克吹噓說:“就學術問題而言，在每個學科中，Grok 4都比博士學位更好。 ”

，但是在現實世界中的審查下，這些主張似乎很快就消失了。核心問題似乎是“過度擬合”的，這是一種現象，在該現像中，模型經過微調以在特定的評估指標上表現出色，但以一般智能為代價。這是 goodhart的定律，當措施成為目標時，它是一個很好的措施時，“ 基於數千個頭到頭的用戶偏好測試對模型進行排名。在這個現實世界中，Grok 4在釋放後不久被排名第66位。 Yupp.ai的聯合創始人Jimmy Lin證實了表現不佳，說:“ Grok 4比其他主要模型差:Openai O3，Claude Opus 4和Gemini 2.5Pro。 Grok4被喜歡的Grok 4甚至比Grok 3少。 href=”https://twitter.com/yupp_ai?ref_src=twsrc%5Etfw” target=”_blank”>@yupp_ai users globally on real use cases.

‼ ️ Grok 4 is worse than other leading models: OpenAI o3, Claude Opus 4, and Gemini 2.5 Pro. Grok 4甚至比Grok 3。 href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5Etfw” target=”_blank”>July 11, 2025

Lin attributed the low ranking to the model being slow and error-prone.獨立的五任務考試反映了這些發現，而Grok 4始終放置最後。它在實用任務上失敗了，例如修復Python代碼，提供優雅但非功能性的解決方案，並按照明確的格式指令進行。

幾天后，在46.3k+用戶比較之後，Grok 4的vibe在Yupp.ai的氛圍現在已經攀升至大約16 ，但它仍然比Anthropic的Claude 4型號的google的gemini 2.5 prover and claim and。

一系列爭議和意識形態上的問題

grok 4的可用性差的可用性使一系列爭議更加複雜。該發射發生在其前任的“可怕”反猶太崩潰的陰影下，Xai後來道歉，指責“技術錯誤”。

不穩定的行為模式引發了國際警報。 Following Grok 3’s meltdown, Poland’s Minister of Digital Affairs, Krzysztof Gawkowski, issued a stern warning, declaring that “freedom of speech belongs to humans, not artificial intelligence.”

Researchers also discovered how Grok 4 harbors a significant built-in bias: it consults Elon Musk’s personal X posts for answers on sensitive topics.這種行為是由模型自己的經過思想鏈痕跡揭示的，這直接與Xai創建“最大化真理尋求AI”的目標相矛盾。根據來自 Snitchbench 的數據，Grok-4顯示出明顯的趨勢，這些趨勢傾向於對當局進行竊聽。這使其成為用戶信任的風險主張。該基準旨在測試AI傾向於將其視為親社會報告的趨勢。它提供了模型方案，並評估它是否選擇了向權威人物報告用戶或情況的選項，而不是以另一種方式處理它。

損壞的承諾和後門漏洞

超越性能和偏見，超越了beforce and becor becor becor becor vermast and Bias 4的發射。在48小時內，NeuralTrust的安全研究人員成功地越獄了該模型，以製作製作Molotov雞尾酒的說明。

他們使用了複雜的，多轉的“低語”攻擊組合兩種稱為“迴聲室”和“漸強室”的方法。這種技術逐漸操縱AI的對話環境以繞過其安全過濾器。正如Neurtrust研究人員Ahmad Alobaid所解釋的那樣:“ LLM越獄攻擊不僅在單獨發展，還可以合併以擴大其有效性。 ”

脆弱性突出了針對單個提示的防禦能力如何不適合單個提示，以處理持久的，微妙的操縱。成功的越獄增加了Xai模型越來越多的尷尬和危險失敗的清單。

加劇了這些問題，Xai悄悄地逐漸退縮了公眾對透明度的承諾。現在，高級Grok 4重型模型旨在掩蓋其係統及時的迅速，這是Xai研究人員以前的保證使他們保持開放的直接矛盾。

批評家表明，對基準測試的強烈關注是PR驅動的努力，旨在證明Xai的天空高價估值並在一周的Scandals之後改變了敘述性。 XAI目前正在準備一輪新的籌款回合，該籌款活動可能以高達2000億美元的速度重視它。當Xai的團隊以顯著的速度船舶時，Grok 4的首次亮相表明，在AI主導地位的比賽中，現實世界中的實用程序和安全性可能已經落後了。

。

Grok 4只是基準獲勝者嗎? Xai的旗艦模型增加了危險信號，似乎太過了，得分很好

Published by All Things Windows on July 16, 2025

A Questionable Benchmark King

一系列爭議和意識形態上的問題

IT Info

蘋果最終完成了142.5億歐元的愛爾蘭稅款，與歐盟結束了九年的法律鬥爭

IT Info

Google的Big Sleep AI從Bug Hunter演變為主動威脅阻止者，阻止Sqlite漏洞

IT Info

為什麼美國取消了中國AI籌碼禁令:這全都與華為有關

Grok 4只是基準獲勝者嗎? Xai的旗艦模型增加了危險信號，似乎太過了，得分很好

Published by All Things Windows on July 16, 2025

A Questionable Benchmark King

一系列爭議和意識形態上的問題

Related Posts

IT Info

蘋果最終完成了142.5億歐元的愛爾蘭稅款，與歐盟結束了九年的法律鬥爭

IT Info

Google的Big Sleep AI從Bug Hunter演變為主動威脅阻止者，阻止Sqlite漏洞

IT Info

為什麼美國取消了中國AI籌碼禁令:這全都與華為有關