ในวันที่ 5 สิงหาคมโมเดล AI อันดับต้น ๆ จาก XAI, Google และ OpenAI ได้จัดแสดงทักษะเชิงกลยุทธ์ในการแข่งขันหมากรุกใหม่ จัดขึ้นในสนามกีฬาเกม Kaggle ใหม่ของ Google เหตุการณ์ทดสอบความสามารถในการใช้เหตุผลของ AIS ที่มีวัตถุประสงค์ทั่วไป ในวันแรก Grok 4, Gemini 2.5 Pro, O4-Mini และ O3 ล้วนขั้นสูงด้วยการกวาด 4-0

ทัวร์นาเมนต์ที่ออกแบบโดย DeepMind มีจุดมุ่งหมายเพื่อดูว่า AIS เหล่านี้จัดการกลยุทธ์ที่ซับซ้อนและเรียลไทม์ได้อย่างไร การย้ายครั้งนี้ส่งสัญญาณการเปลี่ยนแปลงจากมาตรฐานคงที่ไปสู่สภาพแวดล้อมแบบไดนามิกและการแข่งขัน มันเป็นวิธีใหม่ในการวัดความสามารถในการแก้ปัญหาของรุ่นภาษาขนาดใหญ่ชั้นนำของโลก

พื้นใหม่ที่พิสูจน์ได้สำหรับการให้เหตุผล AI

ชุมชนวิทยาศาสตร์ข้อมูลของ Google Kaggle เปิดตัว

ในการแสดงความอ่อนแอขั้นพื้นฐาน Kimi K2 ได้ริบเกมทั้งสี่เกมหลังจากล้มเหลวในการสร้างการเคลื่อนไหวทางกฎหมายภายในสี่ความพยายาม

ไม่มีเกมใดที่ใช้เวลามากกว่าแปดเกม การวิเคราะห์ชี้ให้เห็นว่า Kimi K2 สามารถติดตามทฤษฎีการเปิดตัวสำหรับการเคลื่อนไหวไม่กี่ครั้ง แต่ทันทีที่มันอยู่ในดินแดนที่ไม่คุ้นเคยความเข้าใจในเกมก็พังทลายลงในบางครั้งก็ลืมไปว่าชิ้นส่วนที่เคลื่อนไหวหรือการเข้าใจตำแหน่งของชิ้นส่วนบนกระดานทั้งหมด

การประกวดครั้งนี้ถูกอธิบายว่าเป็น“ Bizarre” โดดเด่นด้วยช่วงเวลาของการเล่นที่แข็งแกร่งเหมือนมนุษย์ที่จะกลายเป็นชุดของความผิดพลาดและภาพหลอนจากทั้งสองฝ่าย

แม้จะมีการแสดงที่ผิดปกตินี้ O4-mini แสดงให้เห็นถึงความสามารถที่เหนือกว่า

การต่อสู้ระหว่าง Gemini 2.5 Pro และ Claude 4 Opus เป็นเกมเดียวที่มีเกมที่จบลงในการตรวจสอบมากกว่าในการริบ อย่างไรก็ตามมันก็ไม่ชัดเจนว่าผลลัพธ์ที่ได้เกิดจากการเล่นหมากรุกของราศีเมถุนเมื่อเทียบกับการเล่นที่ไม่ดีของ Claude 4 Opus

ช่วงเวลาที่สำคัญในเกมแรกเห็น Claude 4 Opus ทำให้การเบี้ย ๆ อย่างเร่งด่วน แม้จะมีข้อได้เปรียบอย่างมาก Gemini 2.5 Pro ก็แสดงข้อ จำกัด ของตัวเอง แต่ก็แขวนชิ้นส่วนเพื่อส่งมอบการตรวจสอบขั้นสุดท้าย

[เนื้อหาฝังตัว]

ในทางตรงกันข้ามการแสดงที่แข็งแกร่งและน่าเชื่อถือที่สุดของวันนั้นมาจาก Grok 4 ของ Xai ในการแข่งขันกับ Gemini 2.5 Flash ในขณะที่ฝ่ายตรงข้ามสร้างส่วนแบ่งของความผิดพลาด Grok 4 ปรากฏตัวขึ้นอย่างตั้งใจในกลยุทธ์ของมันการระบุและใช้ประโยชน์จากชิ้นส่วนที่ไม่ได้รับการปกป้องอย่างต่อเนื่องแทนที่จะรอเพียงแค่รอข้อผิดพลาด

การแสดงความรู้ทางยุทธวิธีที่เหนือกว่านี้ดึงดูดความสนใจของผู้สร้าง Elon Musk Musk ยังพูด ว่า xai”ไม่ต้องใช้ความพยายามในการหมากรุก”เมื่อฝึกซ้อม Grok 4 เกณฑ์มาตรฐานสำหรับอเนกประสงค์ AI

ในขณะที่เครื่องยนต์พิเศษเช่น

สิ่งนี้แสดงให้เห็นอย่างชัดเจนในเดือนกรกฎาคมเมื่อแมกนัสคาร์ลเซ่นเอาชนะ CHATGPT ได้อย่างง่ายดาย หลังจากชนะคาร์ลเซ่นเหน็บแนม“ บางครั้งฉันก็เบื่อขณะเดินทาง” เน้นการขาดความเข้าใจตามบริบทของ AI ผลลัพธ์ของทัวร์นาเมนต์ในปัจจุบันโดยเฉพาะอย่างยิ่งการริบของ Kimi K2 ซึ่งสะท้อนข้อ จำกัด เหล่านี้ในระดับที่ใหญ่ขึ้น

เหตุการณ์นี้มีความเห็นจากตัวเลขหมากรุกยอดนิยมรวมถึง GM Hikaru Nakamura และ IM Levy Rozman ในขณะที่รูปแบบที่น่าพิศวงมีไว้สำหรับการแสดง Kaggle ยังใช้เกมหลายร้อยเกมเบื้องหลังเพื่อสร้างกระดานผู้นำถาวร

สิ่งนี้จะให้เกณฑ์มาตรฐานที่เข้มงวดยิ่งขึ้นเมื่อเวลาผ่านไป ดังที่ Meg Risdal ของ Kaggle อธิบายว่า“ ในขณะที่ทัวร์นาเมนต์เป็นวิธีที่สนุกในการชม…กระดานผู้นำสุดท้ายจะเป็นตัวแทนของเกณฑ์มาตรฐานที่เข้มงวดของความสามารถของนางแบบที่หมากรุกที่เรารักษาไว้ตลอดเวลา” สนามกีฬาวางแผนที่จะขยายไปสู่เกมอื่น ๆ เช่น Go และ Werewolf เพื่อทดสอบแง่มุมต่าง ๆ ของการใช้เหตุผล AI ทัวร์นาเมนต์ยังคงดำเนินต่อไปด้วยรอบรองชนะเลิศในวันที่ 6 สิงหาคม