Google Kaggle meluncurkan”arena game”baru untuk menguji seberapa baik model AI bisa bernalar. Acara pertama adalah kontes catur yang dimulai secara online pada 5 Agustus. Delapan model AI top akan bersaing, termasuk Google’s Gemini 2.5 Pro, Openai O4-Mini, dan Anthropic’s Claude Opus 4.

Tujuannya adalah untuk melihat bagaimana Ais ini menangani pemikiran strategis dalam permainan langsung, . Kaggle bekerja dengan Chess.com di acara tersebut. Pemain catur top seperti Hikaru Nakamura dan Magnus Carlsen akan memberikan analisis permainan mereka.

Inisiatif ini merupakan perubahan signifikan dalam cara industri mengevaluasi AI. Alih-alih mengandalkan tolok ukur statis, Google menciptakan lingkungan yang dinamis untuk menyelidiki kecerdasan strategis model-model umum dalam domain yang terkenal dikuasai oleh ai khusus. Penalaran

Kaggle Game Arena adalah kemitraan antara Google DeepMind dan komunitas sains data perusahaan, Kaggle. Ini bertujuan untuk menyediakan platform yang transparan dan kuat untuk menguji kemampuan penalaran model bahasa besar (LLM) dalam pengaturan yang kompetitif dan dinamis.

Langkah ini secara langsung mengatasi kekhawatiran yang berkembang bahwa tolok ukur tradisional dan statis tidak cukup untuk benar-benar mengukur kemajuan AI. Sementara model telah menunjukkan lompatan dalam penalaran tes terkontrol seperti Olimpiade Matematika Internasional, evaluasi semacam itu tidak menangkap pemikiran strategis waktu nyata.

Google berpendapat bahwa permainan kompleks tangguh terhadap apa yang disebutnya”saturasi”-masalah tes yang “diselesaikan” dengan formula standar. Kesulitan dalam permainan seperti catur secara alami berskala seiring dengan meningkatnya lawan, menawarkan tantangan yang lebih ketat dan berkelanjutan.

[konten tertanam]

Permainan ini berfungsi sebagai proxy untuk keterampilan dunia nyata yang kritis. Evaluasi akan menyelidiki kemampuan yang jauh melampaui pencocokan pola sederhana, termasuk perencanaan strategis, memori, adaptasi, penipuan, dan bahkan”teori pikiran”-kemampuan untuk mengantisipasi pemikiran lawan.

Platform ini dibangun untuk transparansi, dengan setiap lingkungan permainan yang menampilkan halaman-halaman khusus yang mencantumkan papan peringkat, hasil pertarungan, dan aturan open-soperti. The Leadeboards akan memperbarui secara dinamis karena model memainkan lebih banyak game dan AIS baru bergabung dengan peringkat.

Ke depan, arena game akan memperluas cakupannya. Kompetisi di masa depan akan mencakup permainan strategi kuno GO dan permainan deduksi sosial Werewolf, yang dirancang untuk menguji keterampilan seperti menavigasi informasi yang tidak lengkap dan menyeimbangkan kolaborasi terhadap kompetisi.

The perdanakan catur perdana: Model, aturan, dan Pameran Bintang

Acara perdana untuk platform baru adalah AI. Kompetisi ini menampilkan jajaran delapan model bahasa besar terkemuka, mewakili penampang saingan industri yang paling sengit. Daftar ini meliputi Google’s Gemini 2.5 Pro dan Gemini 2.5 Flash, Openai O3 dan O4-Mini, Claude Opus 4 Anthropic, Xai’s Grok 4, Deepseek-R1, dan Kimi yang didasarkan pada Kimi 2-K2. Setiap hari, Kaggle akan menyoroti satu putaran kompetisi, dimulai dengan empat pertarungan perempat final pada hari pertama, diikuti oleh dua kontes semifinal, dan berpuncak pada pertandingan kejuaraan tunggal pada hari ketiga. Pemenang dari setiap putaran akan diputuskan atas serangkaian permainan terbaik.

Aturan tersebut dirancang khusus untuk mengisolasi dan menguji kemampuan penalaran intrinsik model. AIS akan menanggapi input berbasis teks dan dilarang secara ketat dari mengakses alat pihak ketiga mana pun, yang berarti mereka tidak bisa hanya menanyakan mesin catur yang kuat seperti stockfish untuk langkah yang optimal. Untuk memastikan permainan yang adil, jika model mencoba langkah ilegal, itu akan diberikan tiga retries untuk membuat yang valid sebelum harus kehilangan permainan. Setiap langkah juga tunduk pada batas waktu 60 menit.

Untuk membawa kontes unik ini ke audiens global, Kaggle telah bermitra dengan Chess.com dan beberapa tokoh paling berpengaruh di dunia catur. Permainan yang disimulasikan akan disiarkan langsung di kaggle.com, dengan siaran yang berusaha menunjukkan bagaimana setiap model”alasan”tentang langkah selanjutnya dan bagaimana hal itu menanggapi upaya yang gagal.

Grandmaster dan streamer top magnus carlse n akan memberikan rekap akhir dan membagikan pemikirannya tentang pengambilan Championship dan kinerja keseluruhan

Turnamen ini menyoroti perbedaan besar antara LLMS tujuan umum dan AI catur khusus. Bertahun-tahun yang lalu, Alphazero Deepmind sendiri, mesin catur yang dibangun khusus, yang terkenal menghancurkan mesin konvensional teratas, ikan stockfish. LLMS di turnamen ini tidak diharapkan untuk menampilkan keterampilan manusia super yang sempurna.

Sebenarnya, falibilitas mereka adalah bagian dari tes. Seperti yang telah dicatat Chess.com, model seperti ChatGPT dan Gemini masih mempelajari permainan dan telah diketahui membuat gerakan ilegal atau mengundurkan diri dalam situasi yang tidak masuk akal. Ini ditunjukkan dengan jelas pada bulan Juli ketika Magnus Carlsen dengan santai mengalahkan chatgpt tanpa kehilangan sepotong pun.

Setelah kemenangannya, Carlsen menyindir,”Kadang-kadang saya bosan saat bepergian.”Kegagalan AI untuk mengenali itu memainkan pemain berperingkat teratas dunia menggarisbawahi kesenjangan antara pemrosesan bahasa dan pemahaman kontekstual yang benar.

Arena permainan Kaggle juga akan mempertahankan papan peringkat yang persisten. Peringkat ini akan didasarkan pada ratusan game”di belakang layar”, menawarkan tolok ukur yang lebih ketat dari waktu ke waktu. Seperti yang dijelaskan oleh Meg Risdal dari Kaggle, “Sementara turnamen adalah cara yang menyenangkan untuk menyaksikan… papan peringkat terakhir akan mewakili tolok ukur ketat dari kemampuan model di Catur yang kami pertahankan dari waktu ke waktu.”

Categories: IT Info