Pada 5 Ogos, model AI atas dari XAI, Google, dan OpenAI mempamerkan kemahiran strategik mereka dalam kejohanan catur baru. Diadakan di arena permainan Kaggle baru Google, acara itu menguji kebolehan penalaran AIS umum. Pada hari pertama, Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3 semuanya maju dengan penyapu 4-0. Langkah ini menandakan peralihan dari tanda aras statik ke persekitaran yang dinamik dan kompetitif. Ia menawarkan cara baru untuk mengukur keupayaan menyelesaikan masalah model bahasa besar yang terkemuka di dunia. Platform Untuk menguji AI. Inisiatif ini, dengan kerjasama Google DeepMind, menangani kebimbangan bahawa ujian tradisional tidak mencukupi untuk mengukur kemajuan AI yang benar dan jalannya ke arah kecerdasan umum buatan. Kejohanan Catur memaparkan lapan LLM utama. Barisan ini termasuk Google’s Gemini 2.5 Pro dan Flash, Openai’s O3 dan O4-Mini, Anthropic’s Claude 4 Opus, Xai’s Grok 4, Deepseek-R1, dan Kimi K2 Moonshot. Model-model tersebut mesti bergantung kepada penalaran mereka sendiri, tanpa akses kepada enjin catur. Walaupun pemenang-Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3-semua maju dengan bersih, sifat kemenangan mereka menyerlahkan jurang yang signifikan dan mengejutkan dalam kebolehan model untuk bermain permainan. Dalam paparan kelemahan asas, Kimi K2 melepaskan semua empat perlawanan selepas gagal menghasilkan langkah undang-undang dalam empat percubaannya.

Tiada permainan yang berlangsung lebih daripada lapan langkah. Analisis mencadangkan Kimi K2 dapat mengikuti teori pembukaan untuk beberapa langkah, tetapi sebaik sahaja ia berada di wilayah yang tidak dikenali, pemahamannya pada permainan yang hancur, kadang-kadang melupakan bagaimana kepingan bergerak atau salah membaca lokasi kepingan di papan sepenuhnya. Peraduan ini digambarkan sebagai”pelik,”yang dicirikan oleh momen-momen permainan pembukaan yang kuat, seperti manusia yang tiba-tiba akan menjadi satu siri kesilapan dan halusinasi dari kedua-dua belah pihak. Kandungan]

Pertempuran antara Gemini 2.5 Pro dan Claude 4 Opus adalah satu-satunya yang menampilkan lebih banyak permainan yang berakhir di Checkmate daripada Forfeits. Walau bagaimanapun, tidak jelas berapa banyak keputusan yang disebabkan oleh ketajaman catur Gemini berbanding permainan miskin Claude 4 Opus. Walaupun dengan kelebihan yang besar, Gemini 2.5 Pro menunjukkan batasannya sendiri, menggantungkan kepingan dalam perjalanan untuk menyampaikan pemeriksaan akhir.

[Kandungan tertanam]

Walaupun lawannya membuat bahagian kesilapannya, Grok 4 kelihatan jauh lebih disengajakan dalam strateginya, secara konsisten mengenal pasti dan memanfaatkan kepingan-kepingan yang tidak dapat dipisahkan daripada hanya menunggu kesilapan. Musk Penanda aras untuk tujuan umum ai

manakala enjin khusus seperti

Ini jelas ditunjukkan pada bulan Julai apabila Magnus Carlsen mudah mengalahkan Chatgpt. Selepas kemenangan, Carlsen berkata,”Saya kadang-kadang bosan semasa melakukan perjalanan,”menonjolkan kekurangan pemahaman kontekstual AI. Keputusan kejohanan semasa, terutamanya Kimi K2 yang kehilangan, menggema batasan-batasan ini pada skala yang lebih besar. Walaupun format kalah mati adalah untuk persembahan, Kaggle juga menjalankan beratus-ratus permainan di belakang tabir untuk membuat papan pendahulu yang berterusan.

Ini akan memberikan penanda aras yang lebih ketat dari masa ke masa. Seperti yang dijelaskan oleh Meg Risdal Kaggle,”Walaupun kejohanan itu adalah cara yang menyeronokkan untuk menampakkan… Leaderboard akhir akan mewakili penanda aras yang ketat dari keupayaan model di catur yang kami mengekalkan dari masa ke masa.”Arena permainan merancang untuk berkembang ke permainan lain seperti Go dan Werewolf untuk menguji aspek yang berbeza dari penalaran AI. Kejohanan ini berterusan dengan separuh akhir pada 6 Ogos.