Vào ngày 5 tháng 8, các mô hình AI hàng đầu từ XAI, Google và Openai đã thể hiện các kỹ năng chiến lược của họ trong một giải đấu cờ vua mới. Được tổ chức trong lĩnh vực trò chơi Kaggle mới của Google, sự kiện này kiểm tra khả năng lý luận của các AI có mục đích chung. Vào ngày đầu tiên, Grok 4, Gemini 2.5 Pro, O4-Mini và O3 đều tiến bộ với các lần quét 4-0. Động thái này báo hiệu một sự thay đổi từ điểm chuẩn tĩnh sang môi trường cạnh tranh, năng động. Nó cung cấp một cách mới để đo lường khả năng giải quyết vấn đề của các mô hình ngôn ngữ lớn hàng đầu thế giới. Để kiểm tra AI. Sáng kiến, hợp tác với Google DeepMind, giải quyết các lo ngại rằng các bài kiểm tra truyền thống là không đủ để đo lường tiến trình AI thực sự và con đường của nó đối với trí thông minh chung nhân tạo. Giải đấu có tám LLM hàng đầu. Đội hình bao gồm Google từ Gemini 2.5 Pro và Flash, OpenaiTHER O3 và O4-Mini, Anthropic, Claude 4 Opus, XAI, Grok 4, Deepseek-R1 và Moonshot tựa Kimi K2. Các mô hình phải dựa vào lý luận của riêng họ, mà không cần truy cập vào động cơ cờ vua. Trong khi những người chiến thắng, Grok Grok 4, Gemini 2.5 Pro, O4-Mini và O3, tất cả đều tiên tiến, bản chất của các chiến thắng của họ đã làm nổi bật những khoảng trống đáng kể và đáng ngạc nhiên trong các mô hình Khả năng chơi trò chơi. Trong một màn trình diễn tiết lộ điểm yếu cơ bản, Kimi K2 đã bị mất cả bốn trò chơi sau khi không tạo ra một động thái hợp pháp trong bốn lần thử.

Không ai trong số các trò chơi kéo dài hơn tám động tác. Phân tích cho thấy Kimi K2 có thể tuân theo lý thuyết mở cho một vài động tác, nhưng ngay khi nó ở trong lãnh thổ xa lạ, sự nắm bắt của nó trong trò chơi đã tan rã, đôi khi quên mất cách các mảnh di chuyển hoặc đọc sai vị trí của các mảnh trên bảng hoàn toàn. Cuộc thi này được mô tả là kỳ quái,”được đặc trưng bởi những khoảnh khắc chơi mở đầu mạnh mẽ, giống như con người sẽ đột nhiên biến thành một loạt các sai lầm và ảo giác từ cả hai bên. Nội dung]

Trận chiến giữa Gemini 2.5 Pro và Claude 4 Opus là người duy nhất có nhiều trò chơi kết thúc trong Checkmate hơn là bị tịch thu. Tuy nhiên, không rõ kết quả là do sự nhạy bén của cờ vua Gemini, so với Claude 4 Opus, chơi kém. Ngay cả với một lợi thế lớn, Gemini 2.5 Pro đã cho thấy những hạn chế của riêng mình, treo các mảnh trên đường để cung cấp cho người kiểm tra cuối cùng. Trong khi đối thủ của nó chiếm phần ngớ ngẩn, Grok 4 xuất hiện có chủ ý hơn nhiều trong chiến lược của mình, luôn xác định và tận dụng các mảnh không được bảo vệ thay vì chỉ chờ đợi lỗi. Musk

trong khi các động cơ chuyên dụng như

Điều này sẽ cung cấp một điểm chuẩn nghiêm ngặt hơn theo thời gian. Như Kaggle, Meg Risdal đã giải thích, trong khi giải đấu là một cách thú vị để tham gia bảng xếp hạng cuối cùng sẽ đại diện cho điểm chuẩn nghiêm ngặt của các mô hình khả năng của mình trong cờ vua mà chúng ta duy trì theo thời gian.”Đấu trường trò chơi có kế hoạch mở rộng sang các trò chơi khác như Go và người sói để kiểm tra các khía cạnh khác nhau của lý luận AI. Giải đấu tiếp tục với trận bán kết vào ngày 6 tháng 8.