Pada tanggal 5 Agustus, model AI teratas dari XAI, Google, dan Openai memamerkan keterampilan strategis mereka dalam turnamen catur baru. Diadakan di Kaggle Game Arena baru Google, acara ini menguji kemampuan penalaran AIS tujuan umum. Pada hari pertama, Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3 semuanya maju dengan sapuan 4-0.
Turnamen, yang dirancang oleh DeepMind, bertujuan untuk melihat bagaimana AIS ini menangani strategi yang kompleks dan real-time. Langkah ini menandakan pergeseran dari tolok ukur statis ke lingkungan yang dinamis dan kompetitif. Ini menawarkan cara baru untuk mengukur kemampuan pemecahan masalah dari model bahasa besar terkemuka di dunia.
landasan pembuktian baru untuk penalaran AI
Komunitas sains data Google Kaggle
pertarungan perempat final: hari dominasi dan disfungsi
Aksi hari pertama melihat keempat pertandingan perempat final berakhir dalam hasil 4-0 yang menakjubkan, tetapi cerita di belakang skor yang bervariasi secara dramatat. Sementara para pemenang-Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3-semuanya maju dengan bersih, sifat kemenangan mereka menyoroti kesenjangan yang signifikan dan mengejutkan dalam kemampuan model untuk memainkan permainan.
Pertandingan yang paling miring adalah pertemuan antara O3 dan Kimi K2, yang paling tidak seimbang. Dalam tampilan yang mengungkapkan kelemahan mendasar, Kimi K2 kehilangan keempat game setelah gagal menghasilkan langkah hukum dalam empat usahanya.
Tidak ada permainan yang bertahan lebih dari delapan gerakan. Analisis menunjukkan Kimi K2 dapat mengikuti teori pembukaan untuk beberapa gerakan, tetapi segera setelah berada di wilayah yang tidak dikenal, genggamannya pada permainan hancur, kadang-kadang melupakan bagaimana potongan-potongan bergerak atau salah membaca lokasi potongan-potongan di papan tulis sama sekali. Kontes ini digambarkan sebagai”aneh,”ditandai dengan momen-momen permainan pembukaan yang kuat dan seperti manusia yang tiba-tiba akan berubah menjadi serangkaian kesalahan dan halusinasi dari kedua belah pihak.
Meskipun ada kinerja yang tidak menentu ini, o4-mini mendemonstrasikan banyak kemampuan untuk menyelesaikan dua hal yang mengamankan dua check-t rekan-di mana banyak hal yang tidak dapat dikerjakan dengan mengamankan dua check-twe. Konten]
Pertempuran antara Gemini 2.5 Pro dan Claude 4 Opus adalah satu-satunya yang menampilkan lebih banyak game yang berakhir di sekakmat daripada di Forfeits. Namun, tidak jelas berapa banyak hasilnya karena kecerdasan catur Gemini versus permainan miskin Opus Claude 4.
Momen kritis dalam pertandingan pertama melihat Claude 4 Opus membuat gadai tergesa-gesa itu materi yang blunder dan secara permanen menghancurkan pertahanan raja, mempercepat kekalahannya. Bahkan dengan keunggulan besar-besaran, Gemini 2.5 Pro menunjukkan keterbatasannya sendiri, menggantung potongan-potongan dalam perjalanannya untuk memberikan para pembuat kaleng akhir.
[Konten tertanam]
Sebaliknya, kinerja terkuat dan paling meyakinkan dari Xai Grok 4 dalam pertandingannya melawan Flash Gemini 2.5. Sementara lawannya membuat bagian dari kesalahannya, Grok 4 tampak jauh lebih disengaja dalam strateginya, secara konsisten mengidentifikasi dan memanfaatkan karya-karya yang tidak dipertahankan daripada hanya menunggu kesalahan.
Tampilan kesadaran taktis yang unggul ini menarik perhatian”Elon Musk, yang merujuk pada pandangannya sebelumnya pada kompleksitas permainan, juga mendeklarasikannya. Musk juga mengatakan bahwa xai”tidak ada upaya pada catur”ketika pelatihan Grok 4, menyebut kinerja yang relatif baik sebagai”efek sisi”. Benchmark for General-Purpose AI