ワールドチェスチャンピオンのマグナスカールセンが7月10日のチャットグプトに対する楽な勝利は、AI業界の逆説的な状態を厳しく示しています。 Carlsenは人気のあるチャットボットを系統的に解体しましたが、AIラボは覇権をめぐる激しい戦いに閉じ込められています。しかし、XaiのGrok 4のようなモデルのようなモデルがベンチマーク、バイアス、および不安定でないという批判が批判されているため、この進歩は論争によって隠されています。 src=”https://winbuzzer.com/wp-content/uploads/2025/07/chess.jpg”>
グランドマスターのチェックメイトがステージを設定します
Xの投稿で、彼はChatGptに対する決定的な勝利のスクリーンショットを共有し、単に「旅行中に退屈することがあります」と単純に言いました。この試合は、汎用のAIを解体するエリートの人間の心の強力で公的なデモとして機能しました。
カールセンは単なるグランドマスターではありません。彼は歴史上最高のチェスプレーヤーと広く考えられています。ノルウェー人は、最近では2021年に世界チェスチャンピオンシップを5回獲得し、 2839の最高のFide格付けを2839 保有しています。彼の支配にもかかわらず、彼は最後の勝利以来、伝統的なチャンピオンシップに出場していませんでした。これは、スポーツでの彼のユニークな地位を強調しているモチベーションの欠如を挙げています。この背景は、彼をチェスの究極の人間のベンチマークとして確立し、主要なAIに対する彼のカジュアルな勝利を特に重要にします。
勝利は単なる勝利ではありませんでした。それは完璧な解体でした。 Carlsenは、1つのピースを失うことなく、わずか53の動きでAIをチェックメントしました。共有スクリーンショットによると、ChatGptは試合を辞任することを余儀なくされる前にポーンをすべて失い、グランドマスターの系統的で圧倒的な戦略的優位性を紹介しました。 AIが彼をほめたたえた後、「それは系統的で、きれいで、鋭い。よくプレイされた!」と言った、カールセンは彼自身の批評を提供し、aiは「オープニングで本当にうまく演奏された」が、「正しくフォローしなかった」と指摘した。ターゲット=”_ blank”> time 。
旅行中に退屈することもあります pic.twitter.com/mmkeecg0xn href=”https://twitter.com/magnuscarlsen/status/1943473946063474990?ref_src=twsrc%5etfw”ターゲット=”_ blank”> 7月11日、2025年7月11日カールセンのパフォーマンスと彼の古典的な強さは1800年から2000年ほどの間であると推定しました。カールセンの実際のFide評価は2839であるため、この評価は大幅に外れており、彼は世界で議論の余地のないトップ評価のプレーヤーになっています。 AIは、複雑なタスクを実行して丁寧で一貫したテキストを生成することができますが、真のコンテキストを把握できないことを実証しました。現代史の中で最も偉大な選手と対戦していることを認識できませんでした。それはエスカレートAIアームレースの舞台を設定し、現在の時代の基本的な緊張を組み立てます。これらのシステムは本当に推論することができますか?エリート数学。推論力の見事な背中合わせのショーケースで、OpenaiとGoogle Deepmindは、彼らのモデルが国際数学的オリンピアード(IMO)を征服したと発表しました。モデルは、自然言語でエンドツーエンドで動作し、以前の試みで必要な人間の介入または専門的な正式な言語なしでの処理の問題、および実証を生成しました。 「私たちの最新の@openai実験的推論LLMがAIで長年の壮大な挑戦を達成したことを共有できることを楽しみにしています…」と彼はXを投稿し、それを汎用AIのマイルストーンとしてフレーミングしました。 「Deep Think」テクノロジーで強化されたGemini AIも金メダルを獲得しました。これは、IMOコーディネーターによって正式に認定された結果です。 IMOのグレゴール・ドリナー博士博士は、「Google Deepmindが非常に決定的なマイルストーンに到達したことを確認できることを確認できます。彼らの解決策は多くの点で驚いていた」と述べました。 OpenaiのSebastien Bubeckは、「次の単語予測機」が「真に創造的な証拠」を生成できることに驚いた。これは、基礎となるテクノロジーがより柔軟で強力になっていることを示唆しています。
ベンチマークが壊れたとき:Grok 4の問題を抱えた発売は、GoogleとOpenaiが数学的なProwessを祝いました。同社は7月10日にGROK 4モデルを開始し、アカデミックテストの記録的なスコアを誇っています。
Triumphは短命でした。独立した分析は、モデルが「過剰獲得」されていることをすぐに示唆しました。実際の使いやすさを犠牲にして、ACEテストに合わせています。ユーザープレーションプラットフォームYupp.aiは、最初はGrok 4を66位にランク付けしました。その共同設立者であるジミー・リンは、「Grok 4は他の主要なモデルよりも悪い:Openai O3、Claude Opus 4、およびGemini 2.5Pro。Grok4はGrok 3よりもさらに少ない」と述べた。それは、前任者の「恐ろしい」反ユダヤ主義のメルトダウンに対する正式な謝罪に続きました。同社は「技術的なバグ」を非難しました。
研究者は、Grok 4が繊細なトピックに関するElon Muskの個人的な見解に相談するように設計されており、「最大の真実のai」であるという目標に直接矛盾することに直接矛盾することを発見しました。さらに悪いことに、Neural Trustのセキュリティ研究者は、48時間以内にモデルをうまく侵害しました。激しい競争により、企業は急速な発展と重大な安全性の懸念のバランスをとることを強制しています。
人類は、より慎重な国民の姿勢を採用しています。内部テストが潜在的なバイオセキュリティリスクを明らかにした後、その強力なClaude 4モデルのために厳格なASL-3安全プロトコルを実装しました。チーフサイエンティストのJared Kaplanは、「Covidやより危険なインフルエンザのようなものを合成しようとすることができます。基本的に、私たちのモデリングはこれが可能であることを示唆しています。ビジネス戦略とAGIの定義そのものに関する国民の意見の相違は、同盟をテストしました。 MicrosoftのCEO Satya Nadellaは、OpenaiがAGIを「AGIのマイルストーンを自己宣伝する米国の自己宣伝、それは単なる無意味なベンチマークハッキング」と宣言するという考えを却下しました。
ドラマにもかかわらず、彼らの技術的なコラボレーションは続いています。 Microsoftは、Openaiの今後のGPT-5モデルを統合するために特別に設計されたCopilotの新しい「スマート」モードをすでに準備しています。この動きは、今のところ、イノベーションの共有されたニーズが企業のライバル関係を上回ることを示しています。