ในวันที่ 5 สิงหาคมโมเดล AI อันดับต้น ๆ จาก XAI, Google และ OpenAI ได้จัดแสดงทักษะเชิงกลยุทธ์ในการแข่งขันหมากรุกใหม่ จัดขึ้นในสนามกีฬาเกม Kaggle ใหม่ของ Google เหตุการณ์ทดสอบความสามารถในการใช้เหตุผลของ AIS ที่มีวัตถุประสงค์ทั่วไป ในวันแรก Grok 4, Gemini 2.5 Pro, O4-Mini และ O3 ล้วนขั้นสูงด้วยการกวาด 4-0
ทัวร์นาเมนต์ที่ออกแบบโดย DeepMind มีจุดมุ่งหมายเพื่อดูว่า AIS เหล่านี้จัดการกลยุทธ์ที่ซับซ้อนและเรียลไทม์ได้อย่างไร การย้ายครั้งนี้ส่งสัญญาณการเปลี่ยนแปลงจากมาตรฐานคงที่ไปสู่สภาพแวดล้อมแบบไดนามิกและการแข่งขัน มันเป็นวิธีใหม่ในการวัดความสามารถในการแก้ปัญหาของรุ่นภาษาขนาดใหญ่ชั้นนำของโลก
พื้นใหม่ที่พิสูจน์ได้สำหรับการให้เหตุผล AI
ชุมชนวิทยาศาสตร์ข้อมูลของ Google Kaggle เปิดตัว
ในการแสดงความอ่อนแอขั้นพื้นฐาน Kimi K2 ได้ริบเกมทั้งสี่เกมหลังจากล้มเหลวในการสร้างการเคลื่อนไหวทางกฎหมายภายในสี่ความพยายาม
ไม่มีเกมใดที่ใช้เวลามากกว่าแปดเกม การวิเคราะห์ชี้ให้เห็นว่า Kimi K2 สามารถติดตามทฤษฎีการเปิดตัวสำหรับการเคลื่อนไหวไม่กี่ครั้ง แต่ทันทีที่มันอยู่ในดินแดนที่ไม่คุ้นเคยความเข้าใจในเกมก็พังทลายลงในบางครั้งก็ลืมไปว่าชิ้นส่วนที่เคลื่อนไหวหรือการเข้าใจตำแหน่งของชิ้นส่วนบนกระดานทั้งหมด
การประกวดครั้งนี้ถูกอธิบายว่าเป็น“ Bizarre” โดดเด่นด้วยช่วงเวลาของการเล่นที่แข็งแกร่งเหมือนมนุษย์ที่จะกลายเป็นชุดของความผิดพลาดและภาพหลอนจากทั้งสองฝ่าย
แม้จะมีการแสดงที่ผิดปกตินี้ O4-mini แสดงให้เห็นถึงความสามารถที่เหนือกว่า
การต่อสู้ระหว่าง Gemini 2.5 Pro และ Claude 4 Opus เป็นเกมเดียวที่มีเกมที่จบลงในการตรวจสอบมากกว่าในการริบ อย่างไรก็ตามมันก็ไม่ชัดเจนว่าผลลัพธ์ที่ได้เกิดจากการเล่นหมากรุกของราศีเมถุนเมื่อเทียบกับการเล่นที่ไม่ดีของ Claude 4 Opus
ช่วงเวลาที่สำคัญในเกมแรกเห็น Claude 4 Opus ทำให้การเบี้ย ๆ อย่างเร่งด่วน แม้จะมีข้อได้เปรียบอย่างมาก Gemini 2.5 Pro ก็แสดงข้อ จำกัด ของตัวเอง แต่ก็แขวนชิ้นส่วนเพื่อส่งมอบการตรวจสอบขั้นสุดท้าย
[เนื้อหาฝังตัว]
ในทางตรงกันข้ามการแสดงที่แข็งแกร่งและน่าเชื่อถือที่สุดของวันนั้นมาจาก Grok 4 ของ Xai ในการแข่งขันกับ Gemini 2.5 Flash ในขณะที่ฝ่ายตรงข้ามสร้างส่วนแบ่งของความผิดพลาด Grok 4 ปรากฏตัวขึ้นอย่างตั้งใจในกลยุทธ์ของมันการระบุและใช้ประโยชน์จากชิ้นส่วนที่ไม่ได้รับการปกป้องอย่างต่อเนื่องแทนที่จะรอเพียงแค่รอข้อผิดพลาด
การแสดงความรู้ทางยุทธวิธีที่เหนือกว่านี้ดึงดูดความสนใจของผู้สร้าง Elon Musk Musk ยังพูด ว่า xai”ไม่ต้องใช้ความพยายามในการหมากรุก”เมื่อฝึกซ้อม Grok 4 เกณฑ์มาตรฐานสำหรับอเนกประสงค์ AI
ในขณะที่เครื่องยนต์พิเศษเช่น
สิ่งนี้แสดงให้เห็นอย่างชัดเจนในเดือนกรกฎาคมเมื่อแมกนัสคาร์ลเซ่นเอาชนะ CHATGPT ได้อย่างง่ายดาย หลังจากชนะคาร์ลเซ่นเหน็บแนม“ บางครั้งฉันก็เบื่อขณะเดินทาง” เน้นการขาดความเข้าใจตามบริบทของ AI ผลลัพธ์ของทัวร์นาเมนต์ในปัจจุบันโดยเฉพาะอย่างยิ่งการริบของ Kimi K2 ซึ่งสะท้อนข้อ จำกัด เหล่านี้ในระดับที่ใหญ่ขึ้น
เหตุการณ์นี้มีความเห็นจากตัวเลขหมากรุกยอดนิยมรวมถึง GM Hikaru Nakamura และ IM Levy Rozman ในขณะที่รูปแบบที่น่าพิศวงมีไว้สำหรับการแสดง Kaggle ยังใช้เกมหลายร้อยเกมเบื้องหลังเพื่อสร้างกระดานผู้นำถาวร
สิ่งนี้จะให้เกณฑ์มาตรฐานที่เข้มงวดยิ่งขึ้นเมื่อเวลาผ่านไป ดังที่ Meg Risdal ของ Kaggle อธิบายว่า“ ในขณะที่ทัวร์นาเมนต์เป็นวิธีที่สนุกในการชม…กระดานผู้นำสุดท้ายจะเป็นตัวแทนของเกณฑ์มาตรฐานที่เข้มงวดของความสามารถของนางแบบที่หมากรุกที่เรารักษาไว้ตลอดเวลา” สนามกีฬาวางแผนที่จะขยายไปสู่เกมอื่น ๆ เช่น Go และ Werewolf เพื่อทดสอบแง่มุมต่าง ๆ ของการใช้เหตุผล AI ทัวร์นาเมนต์ยังคงดำเนินต่อไปด้วยรอบรองชนะเลิศในวันที่ 6 สิงหาคม