Grok 4 menguasai Hari 1 dari Arena Catur AI Google, Claude Opus 4 gagal dengan teruk berbanding Gemini 2.5 Pro, Deepseek hancur oleh O4-Mini

Pada 5 Ogos, model AI atas dari XAI, Google, dan OpenAI mempamerkan kemahiran strategik mereka dalam kejohanan catur baru. Diadakan di arena permainan Kaggle baru Google, acara itu menguji kebolehan penalaran AIS umum. Pada hari pertama, Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3 semuanya maju dengan penyapu 4-0. Langkah ini menandakan peralihan dari tanda aras statik ke persekitaran yang dinamik dan kompetitif. Ia menawarkan cara baru untuk mengukur keupayaan menyelesaikan masalah model bahasa besar yang terkemuka di dunia. Platform Untuk menguji AI. Inisiatif ini, dengan kerjasama Google DeepMind, menangani kebimbangan bahawa ujian tradisional tidak mencukupi untuk mengukur kemajuan AI yang benar dan jalannya ke arah kecerdasan umum buatan. Kejohanan Catur memaparkan lapan LLM utama. Barisan ini termasuk Google’s Gemini 2.5 Pro dan Flash, Openai’s O3 dan O4-Mini, Anthropic’s Claude 4 Opus, Xai’s Grok 4, Deepseek-R1, dan Kimi K2 Moonshot. Model-model tersebut mesti bergantung kepada penalaran mereka sendiri, tanpa akses kepada enjin catur. Walaupun pemenang-Grok 4, Gemini 2.5 Pro, O4-Mini, dan O3-semua maju dengan bersih, sifat kemenangan mereka menyerlahkan jurang yang signifikan dan mengejutkan dalam kebolehan model untuk bermain permainan. Dalam paparan kelemahan asas, Kimi K2 melepaskan semua empat perlawanan selepas gagal menghasilkan langkah undang-undang dalam empat percubaannya.

Tiada permainan yang berlangsung lebih daripada lapan langkah. Analisis mencadangkan Kimi K2 dapat mengikuti teori pembukaan untuk beberapa langkah, tetapi sebaik sahaja ia berada di wilayah yang tidak dikenali, pemahamannya pada permainan yang hancur, kadang-kadang melupakan bagaimana kepingan bergerak atau salah membaca lokasi kepingan di papan sepenuhnya. Peraduan ini digambarkan sebagai”pelik,”yang dicirikan oleh momen-momen permainan pembukaan yang kuat, seperti manusia yang tiba-tiba akan menjadi satu siri kesilapan dan halusinasi dari kedua-dua belah pihak. Kandungan]

Pertempuran antara Gemini 2.5 Pro dan Claude 4 Opus adalah satu-satunya yang menampilkan lebih banyak permainan yang berakhir di Checkmate daripada Forfeits. Walau bagaimanapun, tidak jelas berapa banyak keputusan yang disebabkan oleh ketajaman catur Gemini berbanding permainan miskin Claude 4 Opus. Walaupun dengan kelebihan yang besar, Gemini 2.5 Pro menunjukkan batasannya sendiri, menggantungkan kepingan dalam perjalanan untuk menyampaikan pemeriksaan akhir.

[Kandungan tertanam]

Walaupun lawannya membuat bahagian kesilapannya, Grok 4 kelihatan jauh lebih disengajakan dalam strateginya, secara konsisten mengenal pasti dan memanfaatkan kepingan-kepingan yang tidak dapat dipisahkan daripada hanya menunggu kesilapan. Musk Penanda aras untuk tujuan umum ai

manakala enjin khusus seperti

Grok 4 menguasai Hari 1 dari Arena Catur AI Google, Claude Opus 4 gagal dengan teruk berbanding Gemini 2.5 Pro, Deepseek hancur oleh O4-Mini

Published by All Things Windows on August 6, 2025

IT Info

Openai mengumumkan bonus $ 1.5 juta untuk setiap pekerja sedia ada atau baru sehingga 2027, mungkin membelanjakan sehingga $ 10 bilion

IT Info

Membina vs Penggunaan: Bila Mengembangkan Jambatan Salib Rantaian Anda Sendiri

IT Info

Kebenaran Sosial Melancarkan carian AI berkuasa yang berkuasa, mencetuskan kebimbangan bias

Grok 4 menguasai Hari 1 dari Arena Catur AI Google, Claude Opus 4 gagal dengan teruk berbanding Gemini 2.5 Pro, Deepseek hancur oleh O4-Mini

Published by All Things Windows on August 6, 2025

Related Posts

IT Info

Openai mengumumkan bonus $ 1.5 juta untuk setiap pekerja sedia ada atau baru sehingga 2027, mungkin membelanjakan sehingga $ 10 bilion

IT Info

Membina vs Penggunaan: Bila Mengembangkan Jambatan Salib Rantaian Anda Sendiri

IT Info

Kebenaran Sosial Melancarkan carian AI berkuasa yang berkuasa, mencetuskan kebimbangan bias