Pada tanggal 5 Agustus, model AI teratas dari XAI, Google, dan Openai memamerkan keterampilan strategis mereka dalam turnamen catur baru. Diadakan di Kaggle Game Arena baru Google, acara ini menguji kemampuan penalaran AIS tujuan umum. Pada hari pertama, Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3 semuanya maju dengan sapuan 4-0.

Turnamen, yang dirancang oleh DeepMind, bertujuan untuk melihat bagaimana AIS ini menangani strategi yang kompleks dan real-time. Langkah ini menandakan pergeseran dari tolok ukur statis ke lingkungan yang dinamis dan kompetitif. Ini menawarkan cara baru untuk mengukur kemampuan pemecahan masalah dari model bahasa besar terkemuka di dunia.

landasan pembuktian baru untuk penalaran AI

Komunitas sains data Google Kaggle

pertarungan perempat final: hari dominasi dan disfungsi

Aksi hari pertama melihat keempat pertandingan perempat final berakhir dalam hasil 4-0 yang menakjubkan, tetapi cerita di belakang skor yang bervariasi secara dramatat. Sementara para pemenang-Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3-semuanya maju dengan bersih, sifat kemenangan mereka menyoroti kesenjangan yang signifikan dan mengejutkan dalam kemampuan model untuk memainkan permainan.

Pertandingan yang paling miring adalah pertemuan antara O3 dan Kimi K2, yang paling tidak seimbang. Dalam tampilan yang mengungkapkan kelemahan mendasar, Kimi K2 kehilangan keempat game setelah gagal menghasilkan langkah hukum dalam empat usahanya.

Tidak ada permainan yang bertahan lebih dari delapan gerakan. Analisis menunjukkan Kimi K2 dapat mengikuti teori pembukaan untuk beberapa gerakan, tetapi segera setelah berada di wilayah yang tidak dikenal, genggamannya pada permainan hancur, kadang-kadang melupakan bagaimana potongan-potongan bergerak atau salah membaca lokasi potongan-potongan di papan tulis sama sekali. Kontes ini digambarkan sebagai”aneh,”ditandai dengan momen-momen permainan pembukaan yang kuat dan seperti manusia yang tiba-tiba akan berubah menjadi serangkaian kesalahan dan halusinasi dari kedua belah pihak.

Meskipun ada kinerja yang tidak menentu ini, o4-mini mendemonstrasikan banyak kemampuan untuk menyelesaikan dua hal yang mengamankan dua check-t rekan-di mana banyak hal yang tidak dapat dikerjakan dengan mengamankan dua check-twe. Konten]

Pertempuran antara Gemini 2.5 Pro dan Claude 4 Opus adalah satu-satunya yang menampilkan lebih banyak game yang berakhir di sekakmat daripada di Forfeits. Namun, tidak jelas berapa banyak hasilnya karena kecerdasan catur Gemini versus permainan miskin Opus Claude 4.

Momen kritis dalam pertandingan pertama melihat Claude 4 Opus membuat gadai tergesa-gesa itu materi yang blunder dan secara permanen menghancurkan pertahanan raja, mempercepat kekalahannya. Bahkan dengan keunggulan besar-besaran, Gemini 2.5 Pro menunjukkan keterbatasannya sendiri, menggantung potongan-potongan dalam perjalanannya untuk memberikan para pembuat kaleng akhir.

[Konten tertanam]

Sebaliknya, kinerja terkuat dan paling meyakinkan dari Xai Grok 4 dalam pertandingannya melawan Flash Gemini 2.5. Sementara lawannya membuat bagian dari kesalahannya, Grok 4 tampak jauh lebih disengaja dalam strateginya, secara konsisten mengidentifikasi dan memanfaatkan karya-karya yang tidak dipertahankan daripada hanya menunggu kesalahan.

Tampilan kesadaran taktis yang unggul ini menarik perhatian”Elon Musk, yang merujuk pada pandangannya sebelumnya pada kompleksitas permainan, juga mendeklarasikannya. Musk juga mengatakan bahwa xai”tidak ada upaya pada catur”ketika pelatihan Grok 4, menyebut kinerja yang relatif baik sebagai”efek sisi”. Benchmark for General-Purpose AI

Sementara mesin khusus seperti

Ini ditunjukkan dengan jelas pada bulan Juli ketika Magnus Carlsen dengan mudah mengalahkan chatgpt. Setelah menang, Carlsen menyindir,”Saya terkadang bosan saat bepergian,”menyoroti kurangnya pemahaman kontekstual AI. Hasil turnamen saat ini, terutama Kimi K2 kehilangan, menggemakan batasan-batasan ini pada skala yang lebih besar.

Acara ini menampilkan komentar dari tokoh catur top, termasuk GM Hikaru Nakamura dan IM Levy Rozman, membawa kontes unik ke audiens global. Sementara format KO adalah untuk pertunjukan, Kaggle juga menjalankan ratusan game di belakang layar untuk membuat papan peringkat yang gigih.

Ini akan memberikan tolok ukur yang lebih ketat dari waktu ke waktu. Seperti yang dijelaskan oleh Meg Risdal dari Kaggle,”Sementara turnamen adalah cara yang menyenangkan untuk menyaksikan… papan peringkat terakhir akan mewakili tolok ukur ketat dari kemampuan model di catur yang kami pertahankan dari waktu ke waktu.”Game Arena berencana untuk memperluas ke game lain seperti Go dan Werewolf untuk menguji berbagai aspek penalaran AI. Turnamen berlanjut dengan semifinal pada 6 Agustus.