Pada 5 Ogos, model AI atas dari XAI, Google, dan OpenAI mempamerkan kemahiran strategik mereka dalam kejohanan catur baru. Diadakan di arena permainan Kaggle baru Google, acara itu menguji kebolehan penalaran AIS umum. Pada hari pertama, Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3 semuanya maju dengan penyapu 4-0. Langkah ini menandakan peralihan dari tanda aras statik ke persekitaran yang dinamik dan kompetitif. Ia menawarkan cara baru untuk mengukur keupayaan menyelesaikan masalah model bahasa besar yang terkemuka di dunia. Platform Untuk menguji AI. Inisiatif ini, dengan kerjasama Google DeepMind, menangani kebimbangan bahawa ujian tradisional tidak mencukupi untuk mengukur kemajuan AI yang benar dan jalannya ke arah kecerdasan umum buatan. Kejohanan Catur memaparkan lapan LLM utama. Barisan ini termasuk Google’s Gemini 2.5 Pro dan Flash, Openai’s O3 dan O4-Mini, Anthropic’s Claude 4 Opus, Xai’s Grok 4, Deepseek-R1, dan Kimi K2 Moonshot. Model-model tersebut mesti bergantung kepada penalaran mereka sendiri, tanpa akses kepada enjin catur. Walaupun pemenang-Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3-semua maju dengan bersih, sifat kemenangan mereka menyerlahkan jurang yang signifikan dan mengejutkan dalam kebolehan model untuk bermain permainan. Dalam paparan kelemahan asas, Kimi K2 melepaskan semua empat perlawanan selepas gagal menghasilkan langkah undang-undang dalam empat percubaannya.
Tiada permainan yang berlangsung lebih daripada lapan langkah. Analisis mencadangkan Kimi K2 dapat mengikuti teori pembukaan untuk beberapa langkah, tetapi sebaik sahaja ia berada di wilayah yang tidak dikenali, pemahamannya pada permainan yang hancur, kadang-kadang melupakan bagaimana kepingan bergerak atau salah membaca lokasi kepingan di papan sepenuhnya. Peraduan ini digambarkan sebagai”pelik,”yang dicirikan oleh momen-momen permainan pembukaan yang kuat, seperti manusia yang tiba-tiba akan menjadi satu siri kesilapan dan halusinasi dari kedua-dua belah pihak. Kandungan]
Pertempuran antara Gemini 2.5 Pro dan Claude 4 Opus adalah satu-satunya yang menampilkan lebih banyak permainan yang berakhir di Checkmate daripada Forfeits. Walau bagaimanapun, tidak jelas berapa banyak keputusan yang disebabkan oleh ketajaman catur Gemini berbanding permainan miskin Claude 4 Opus. Walaupun dengan kelebihan yang besar, Gemini 2.5 Pro menunjukkan batasannya sendiri, menggantungkan kepingan dalam perjalanan untuk menyampaikan pemeriksaan akhir.
[Kandungan tertanam]
Walaupun lawannya membuat bahagian kesilapannya, Grok 4 kelihatan jauh lebih disengajakan dalam strateginya, secara konsisten mengenal pasti dan memanfaatkan kepingan-kepingan yang tidak dapat dipisahkan daripada hanya menunggu kesilapan. Musk Penanda aras untuk tujuan umum ai