Google’s Kaggle melancarkan”arena permainan”baru untuk menguji seberapa baik model AI boleh membuat alasan. Acara pertama adalah pertandingan catur yang bermula dalam talian pada 5 Ogos. Lapan model AI atas akan bersaing, termasuk Google’s Gemini 2.5 Pro, Openai’s O4-Mini, dan Anthropic’s Claude Opus 4. Di luar ujian mudah . Kaggle bekerja dengan Chess.com pada acara itu. Pemain catur teratas seperti Hikaru Nakamura dan Magnus Carlsen akan memberikan analisis permainan mereka.

Inisiatif ini mewakili peralihan yang signifikan dalam bagaimana industri menilai AI. Daripada bergantung pada tanda aras statik, Google mewujudkan persekitaran yang dinamik untuk meneliti kecerdasan strategik model tujuan umum dalam domain yang terkenal dengan AI yang khusus. Penalaran

Arena Permainan Kaggle adalah perkongsian antara Google DeepMind dan komuniti sains data syarikat, Kaggle. Ia bertujuan untuk menyediakan platform yang telus dan teguh untuk menguji keupayaan pemikiran model bahasa besar (LLMS) dalam tetapan yang kompetitif dan dinamik. Walaupun model telah menunjukkan lompatan dalam alasan ujian terkawal seperti Olimpik Matematik Antarabangsa, penilaian tersebut tidak menangkap pemikiran strategik masa nyata. Kesukaran dalam permainan seperti catur secara semulajadi skala sebagai lawan memperbaiki, menawarkan cabaran yang lebih ketat dan berterusan.

[Kandungan Terbenam]

Permainan ini berfungsi sebagai proksi untuk kemahiran dunia sebenar kritikal. Penilaian akan menyiasat keupayaan jauh melebihi pencocokan corak yang mudah, termasuk perancangan strategik, memori, penyesuaian, penipuan, dan juga”teori minda”-keupayaan untuk menjangkakan pemikiran lawan.

Leaderboards akan mengemas kini secara dinamik kerana model memainkan lebih banyak permainan dan AI baru menyertai kedudukan.

Melihat ke depan, arena permainan akan mengembangkan ruang lingkupnya. Pertandingan masa depan akan merangkumi permainan strategi purba dan permainan Werewolf permainan Sosial, yang direka untuk menguji kemahiran seperti menavigasi maklumat yang tidak lengkap dan mengimbangi kerjasama terhadap persaingan.

5-7. Persaingan ini mempunyai barisan yang hebat dari lapan model bahasa yang besar, yang mewakili keratan rentas saingan industri yang paling sengit. Senarai itu termasuk Google’s Gemini 2.5 Pro dan Gemini 2.5 Flash, Openai’s O3 dan O4-Mini, Anthropic’s Claude Opus 4, Xai’s Grok 4, DeepSeek-R1, dan Moonshot’s Kimi 2-K2-Instruct. Setiap hari, Kaggle akan menjaringkan satu pusingan pertandingan, bermula dengan empat perlawanan suku akhir pada hari pertama, diikuti oleh dua pertandingan separuh akhir, dan memuncak dalam perlawanan kejohanan tunggal pada hari ketiga. Pemenang setiap pusingan akan diputuskan dalam siri permainan terbaik empat.

Peraturan ini direka khusus untuk mengasingkan dan menguji kebolehan penalaran intrinsik model. AIS akan bertindak balas terhadap input berasaskan teks dan dilarang keras untuk mengakses mana-mana alat pihak ketiga, yang bermaksud mereka tidak boleh hanya menanyakan enjin catur yang kuat seperti Stockfish untuk langkah optimum. Untuk memastikan permainan yang adil, jika model cuba langkah haram, ia akan diberikan tiga pengambilan semula untuk membuat yang sah sebelum ia mesti kehilangan permainan. Setiap langkah juga tertakluk kepada had masa 60 minit.

Untuk membawa pertandingan unik ini kepada penonton global, Kaggle telah bekerjasama dengan Chess.com dan beberapa tokoh yang paling berpengaruh di dunia catur. Permainan simulasi akan diasingkan di Kaggle.com, dengan siaran yang cuba menunjukkan bagaimana setiap model”alasan”mengenai langkah seterusnya dan bagaimana ia bertindak balas terhadap percubaan yang gagal. menawarkan pandangan pakar ke dalam strategi AI. Sementara itu, Levy Master Antarabangsa Rozman, yang lebih dikenali sebagai Gothamchess, akan menyampaikan rekap harian dengan analisis mendalam di saluran YouTubenya yang popular.

Kejohanan itu akan disimpulkan dengan keputusan pakar muktamad. Juara Dunia Legenda Magnus Carlse Penanda aras tujuan umum AI

Kejohanan ini menyoroti perbezaan yang luas antara LLM tujuan umum dan catur khusus AI. Bertahun-tahun yang lalu, Alphazero Deepmind sendiri, enjin catur yang dibina tujuan, terkenal menghancurkan enjin konvensional teratas, Stockfish. LLMS dalam kejohanan ini tidak dijangka memaparkan kemahiran yang tidak sempurna, superhuman.

Malah, kejatuhan mereka adalah sebahagian daripada ujian. Seperti yang dicatat oleh Chess.com, model seperti Chatgpt dan Gemini masih belajar permainan dan telah diketahui membuat langkah haram atau meletakkan jawatan dalam situasi yang tidak masuk akal. Ini jelas ditunjukkan pada bulan Julai ketika Magnus Carlsen mengalahkan Chatgpt tanpa kehilangan sekeping. Kegagalan AI untuk mengenali ia memainkan pemain tertinggi di dunia menggariskan jurang antara bahasa pemprosesan dan pemahaman kontekstual yang benar.

Arena permainan Kaggle juga akan mengekalkan papan pendahulu yang berterusan. Kedudukan ini akan didasarkan pada beratus-ratus permainan”di belakang tabir”, yang menawarkan penanda aras yang lebih ketat dari masa ke masa. Seperti yang dijelaskan oleh Meg Risdal Kaggle,”Walaupun kejohanan itu adalah cara yang menyeronokkan untuk menampakkan… Leaderboard akhir akan mewakili penanda aras yang ketat dari keupayaan model di catur yang kami mengekalkan dari masa ke masa.”

Categories: IT Info