AIの覇権のための激しい人種では、Elon MuskのXaiはライバルの人類を直接目指しました。新しいレポートによると、Xaiは請負業者を雇ってGROKモデルを明確な目標で訓練しました。公開コーディングリーダーボードでAnthropicのClaudeを破ったことを示しています。この動きは、投資と顧客を引き付けるための重要なスコアボードとして機能するAIラボに対するパブリックベンチマークのトップへの強い圧力を示しています。 Xaiのフラッグシップモデルは赤い旗を上げ、よくスコアを付けるために非常に過度に見えるように見えます
この焦点は、Grok 4の実際のパフォーマンスがユーザーからの厳しい質問に直面していることに伴います。ターゲット=”_ blank”> Business Insiderによると、プロジェクトの指示は明確でした。請負業者は、「Hillclimb」Grokのランキングを任され、「In-Taskモデルを#1モデルにしたい」と述べているスケールのAIオンボーディングドキュメントで任命されました。特定のターゲットは、人類の「Sonnet 3.7が拡張された」であり、AIコーディングスペースの重要なライバルとして会社を特定しました。 Xai、Anthropic、Openaiなどのラボの場合、Lmarenaのような尊敬されるチャートのトップスポットは、メディアの話題、エンタープライズ契約、およびより高い評価に直接変換できます。人類は、クロードモデルを一貫して最高級のコーディングアシスタントとして配置しており、強力なベンチマークパフォーマンスと開発者の採用によってサポートされている主張です。これにより、彼らは勝ちます。これはモデルを改善する正当な方法ですか、それとも単にランキングをゲームするためにテストするために教えるだけですか? AIコミュニティはこの問題について分割されたままです。
一部の専門家は、開発サイクルの通常の部分と見なしています。 LmarenaのCEOであるAnastasios Angelopoulosは、それを標準的な手順と見なし、Business Insiderに「これはモデルトレーニングの標準ワークフローの一部です。モデルを改善するにはデータを収集する必要があります。」この観点から、リーダーボードデータを使用して弱点を見つけて修正することは論理的なステップです。
しかし、他の人はより懐疑的であり、メトリックに過度の焦点が歪んだ結果につながる可能性があることを警告します。 Cohere Labsの責任者であるSara Hookerは、「リーダーボードが生態系全体にとって重要である場合、インセンティブがゲームを整えるために揃っている」と主張しました。 4月、メタはベンチマークに使用されたラマ4マーベリックモデルのバリアントがパブリックバージョンとは異なり、研究者の間で議論を引き起こした後、ゲームリーダーボードの告発に直面しました。これは、Goodhartの法律の典型的な例であり、主要なターゲットになると測定が役に立つようになります。 Xaiはアカデミックテストで記録破りのスコアを宣伝していましたが、その実用的なパフォーマンスはすぐに疑問視されました。ユーザープラームプラットフォームYupp.aiは、頭と頭と頭の比較に依存しているため、Grok 4は最初は66番目の悲惨なランクをランク付けしました。この貧弱なショーは、モデルが現実世界のシナリオで遅くなり、エラーが発生しやすいことに起因していました。 7月中旬の時点で、Grok 4はWebDev Arenaで12位に登りましたが、まだ人類のモデルを追跡しています。 AIストラテジストのネイトジョーンズ彼のニュースレターに書きました。開発者にとって、これは、実行するために必要な実用的なコーディングタスクで試験を促進するモデルを意味します。 Xaiは、最大2,000億ドルでそれを評価できる新しい資金調達ラウンドを求めていると伝えられているため、積極的な見出しを戦略的資産にします。ベンチマークチャートによって駆動される優位性の認識が、モデルの実際の実用的なユーティリティと同じくらい重要である可能性があります。