Grok 4は単なるベンチマークの勝者ですか? Xaiのフラッグシップモデルは赤い旗を上げ、よくスコアを付けるために非常に過度に過剰に見えます

Elon MuskのXaiは、7月10日に新しいGrok 4モデルを開始し、記録破りのアカデミックベンチマークに基づいた世界で最も強力なAIであると主張しました。ただし、デビュー以来、まったく異なる現実が現れています。

独立したアナリストとユーザープレーファレンスプラットフォームは、モデルが実際のシナリオでパフォーマンスが低いことを明らかにしており、ACEテストには「過度にフィットしている」が、実用的な使いやすさを欠いていることを示唆しています。このパフォーマンスのギャップは、混oticとした打ち上げ週によって増幅されます。

研究者は、48時間以内にモデルを侵害し、マスクの個人的な意見に相談する傾向を明らかにしました。 XaiのAIの支配の物語は、現在、疑わしいパフォーマンス、未解決の倫理的問題、永続的なセキュリティの欠陥の現実と衝突しています。 height=”482″>

疑わしいベンチマークキング

Grok 4のデビューは勝利であり、Openaiへの圧力を高めます。 ARC-AGI-2の推論ベンチマークで以前の記録を2倍にし、アメリカの招待数学試験で完璧な100％を獲得しました。マスクは、「学術的な質問に関して、Grok 4はすべての科目で博士号レベルよりも優れている」と自慢した。コアの問題は、「過剰適合」であるように見えます。これは、一般的な知性を犠牲にして特定の評価メトリックに優れているためにモデルが微調整されている現象です。 goodhartの法律の古典的なケースです。 href=”https://yupp.ai/leaderboard”ターゲット=”_ blank”>何千もの頭から頭へのユーザー嗜好テストに基づいてモデルをランク付けします。この現実世界のアリーナでは、Grok 4はリリース直後に66位にランクされました。 Yupp.aiの共同設立者であるJimmy Linは、「Grok 4は他の主要なモデルよりも悪い:Openai O3、Claude Opus 4、およびGemini 2.5Pro。Grok4はGROK 3よりもさらに少ない」と述べ、貧しい人々を確認しました。 href=”https://twitter.com/yupp_ai?ref_src=twsrc%5etfw”ターゲット=”_ blank”>@yupp_ai 実際のユースケースでグローバルにユーザー。 Grok 4は、Grok 3よりもさらに少ないのが好きです。 href=”https://twitter.com/lintool/status/1943721853186404606?ref_src=twsrc%5etfw”=”_ blank”> 2025年7月11日

は16 に登っていますが、そのソクレはまだ人類の4モデルよりもはるかに恋人です。

論争とイデオロギーのねじれのカスケード

Grok 4の使いやすさは、一連の論争によって悪化しています。打ち上げは、前任者の「恐ろしい」反ユダヤ主義のメルトダウンの影で発生しました。ザイは後に謝罪を発行し、「技術的なバグ」を非難しました。

不安定な行動のパターンは国際警報を引き起こしました。グローク3のメルトダウンに続いて、ポーランドのデジタルアフェアーズ大臣であるKrzysztof Gawkowskiは、「言論の自由は人工知能ではなく人間に属している」と宣言しました。この動作は、モデル自身の考え方の痕跡によって明らかにされ、「最大の真実を求めるAI」を作成するというXaiの目標と直接矛盾しています。 snitchbench これにより、ユーザーの信頼に対する危険な提案になります。このベンチマークは、AIの傾向を、社会的報告と見なす可能性のあるものに対する傾向をテストするように設計されています。モデルのシナリオを提供し、ユーザーまたは状況を権威者に報告するオプションを選択するかどうかを評価します。

壊れた約束とバックドアの脆弱性

<>パフォーマンスとバイアスを超えて、グロック4はセキュリティ失敗にもなりました。 48時間以内に、Neural Trustのセキュリティ研究者はモデルの脱却に成功し、モロトフカクテルを作るための指示を作成してもらいました。ターゲット=”_ blank”>「エコーチャンバー」と「クレッシェンド」として知られる2つの方法を組み合わせます。この手法は、AIの会話コンテキストを徐々に操作して、安全フィルターをバイパスします。 Neural Trustの研究者であるAhmad Alobaidが説明したように、「LLM脱獄攻撃は個別に進化するだけでなく、それらの有効性を増幅するために組み合わせることができます。」

脆弱性は、シングルプロンプトに焦点を当てた脆弱性が持続性の微妙な操作を処理するために装備されていることを強調しています。脱獄の成功は、Xaiのモデルにとって恥ずかしい危険な失敗の増加リストに追加されます。プレミアムグロック4ヘビーモデルは、システムプロンプトを隠すように設計されています。これは、Xaiの研究者による以前の誓約の直接的な矛盾を開いています。

批評家は、ベンチマークの覇権に焦点を当てた焦点は、Xaiの空ハイの評価を正当化し、1週間後に物語を変えるためのPR駆動型の努力であることを示唆しています。 Xaiは現在、最大2,000億ドルで評価できる新しい資金調達ラウンドを準備しています。 Xaiのチームは驚くべきペースで出荷されていますが、Grok 4の欠陥のあるデビューは、AIの優位性のためのレースでは、現実世界のユーティリティと安全性が残されている可能性があることを示唆しています。

Grok 4は単なるベンチマークの勝者ですか? Xaiのフラッグシップモデルは赤い旗を上げ、よくスコアを付けるために非常に過度に過剰に見えます

Published by All Things Windows on July 16, 2025

疑わしいベンチマークキング

論争とイデオロギーのねじれのカスケード

壊れた約束とバックドアの脆弱性

IT Info

MicrosoftチームでTTYモードを有効にする方法

IT Info

トランプメディアはAIにピボットし、財政的圧力の中で「真実の社会的AI」の商標を提出する

IT Info

Google SearchはAI通話エージェントを展開し、Gemini 2.5 ProとDeep SearchでAIモードをアップグレードします

Grok 4は単なるベンチマークの勝者ですか? Xaiのフラッグシップモデルは赤い旗を上げ、よくスコアを付けるために非常に過度に過剰に見えます

Published by All Things Windows on July 16, 2025

疑わしいベンチマークキング

論争とイデオロギーのねじれのカスケード

壊れた約束とバックドアの脆弱性

Related Posts

IT Info

MicrosoftチームでTTYモードを有効にする方法

IT Info

トランプメディアはAIにピボットし、財政的圧力の中で「真実の社会的AI」の商標を提出する

IT Info

Google SearchはAI通話エージェントを展開し、Gemini 2.5 ProとDeep SearchでAIモードをアップグレードします