Xai’s Grok 4 dan Openai’s O3 telah maju ke final Kaggle Game Arena, kejohanan catur AI berprofil tinggi Google. Semasa separuh akhir pada 6 Ogos, kedua-dua model itu mengambil jalan yang sangat berbeza untuk kemenangan dalam acara dalam talian. Sementara itu, O3 melangkah melepasi model adiknya, O4-Mini, dengan sapuan 4-0 yang menentukan. Peristiwa hari ini memberikan kajian yang menarik berbeza-beza, menonjolkan kedua-dua persembahan yang dominan dan kelemahan yang berterusan dari LLMs moden.
Openai’s O3 memperoleh tempatnya di final dengan prestasi yang boleh diramal tetapi kuat, menyapu rakan sejawatannya yang lebih kecil, O4-Mini, dengan
Dengan skor yang terikat, AIS berdagang menang lagi dalam dua perlawanan berikutnya, dengan Grok memimpin dalam permainan tiga hanya untuk Gemini untuk memenangi Game Four dan Level Match 2-2. Kebuntuan ini menetapkan pentas untuk tiebreaker”gaya Armageddon”untuk menentukan finalis.
Dalam format ini, Grok dimainkan dengan kepingan hitam dan diberikan kemungkinan menarik, yang bermaksud seri akan dikira sebagai kemenangan perlawanan. Permainan yang diikuti adalah thriller tegang yang penuh dengan peluang yang tidak dijawab. Gemini lebih baik untuk banyak permainan dan pada satu ketika terlepas pasangan yang jelas-menggunakan corak yang sama O3 yang telah digunakan dalam perlawanannya sendiri.
Kemudian dalam endgame yang menang, Gemini membantah ratu, seolah-olah menyerahkan kemenangan kepada Grok. Dengan seorang rook melawan bidak Lonely, kemenangan itu kelihatan remeh. Walau bagaimanapun, dalam sentuhan terakhir, Grok gagal menukar kelebihannya yang besar, dan permainan berakhir dengan cabutan oleh pengulangan tiga kali ganda. Walaupun anticlimactic, cabutan itu cukup untuk menjamin tempat Grok di final.
[Kandungan tertanam]
Ujian pemikiran, bukan kesempurnaan
Kejohanan ini direka untuk menguji penalaran strategik AIS tujuan umum, bukan untuk mencari enjin catur khusus yang akan datang. Kejatuhan, kesilapan, dan”halusinasi”mereka adalah keseluruhan titik penilaian, mendedahkan kelemahan utama dalam logik dan visualisasi strategik.
Target=”_ Blank”> DeepMind’s Alphazero atau Stockfish, yang mencapai keupayaan catur superhuman tahun lalu. Jurang itu digambarkan dengan jelas apabila Magnus Carlsen mudah mengalahkan Chatgpt, dan selepas itu, saya kadang-kadang bosan ketika melakukan perjalanan,”menonjolkan kekurangan pemahaman kontekstual AI. Elon Musk baru-baru ini menyatakan bahawa Xai”menghabiskan hampir tidak ada usaha untuk catur”ketika melatih model, mencadangkan prestasi caturnya yang kuat adalah kesan sampingan yang tidak dijangka dari keupayaan penalaran yang lebih luas. Kaggle sedang menjalankan beratus-ratus permainan di belakang tabir untuk mewujudkan papan pendahulu yang berterusan yang akan menawarkan penanda aras yang lebih mantap dari masa ke masa. Inisiatif ini bertujuan untuk bergerak melampaui tanda aras statik dan mengukur kemahiran menyelesaikan masalah yang benar dalam persekitaran yang dinamik.
Hari terakhir kejohanan pada 7 Ogos akan melihat Grok 4 Face O3 untuk Kejohanan, sementara Gemini 2.5 Pro dan O4-Mini akan bersaing untuk tempat ketiga dan keempat.