Google Google Kaggle đang ra mắt một đấu trường trò chơi mới”để kiểm tra các mô hình AI có thể suy luận tốt như thế nào. Sự kiện đầu tiên là một cuộc thi cờ vua bắt đầu trực tuyến vào ngày 5 tháng 8. Tám người mẫu AI hàng đầu sẽ cạnh tranh, bao gồm Google Google Gemini 2.5 Pro, Openai tựa O4-Mini và Anthropic, Claude Opus 4. Bài kiểm tra . Kaggle đang làm việc với Chess.com về sự kiện này. Những người chơi cờ hàng đầu như Hikaru Nakamura và Magnus Carlsen sẽ đưa ra phân tích của họ về các trò chơi. Thay vì dựa vào điểm chuẩn tĩnh, Google đang tạo ra một môi trường năng động để thăm dò trí tuệ chiến lược của các mô hình đa năng trong một miền được thành thạo bởi AI chuyên môn.
Magnus Carlse N sẽ cung cấp bản tóm tắt cuối cùng và chia sẻ suy nghĩ của anh ấy. AI mục đích chung
Giải đấu này làm nổi bật sự khác biệt lớn giữa LLM đa năng và AI Chess chuyên dụng. Nhiều năm trước, Alphazero của Deepmind, một động cơ cờ vua được chế tạo có mục đích, nổi tiếng đã nghiền nát động cơ thông thường hàng đầu, Stockfish. Các LLM trong giải đấu này dự kiến sẽ không thể hiện kỹ năng siêu phàm, hoàn hảo như vậy. Như Chess.com đã lưu ý, các mô hình như Chatgpt và Gemini vẫn đang học trò chơi và đã được biết là thực hiện các động thái bất hợp pháp hoặc từ chức trong các tình huống vô lý. Điều này đã được chứng minh một cách sinh động vào tháng 7 khi Magnus Carlsen tình cờ đánh bại TATGPT mà không mất một mảnh nào. Sự thất bại của AI, khi nhận ra nó đang chơi người chơi được xếp hạng hàng đầu thế giới nhấn mạnh khoảng cách giữa ngôn ngữ xử lý và sự hiểu biết theo ngữ cảnh thực sự.
Đấu trường trò chơi Kaggle cũng sẽ duy trì bảng xếp hạng liên tục. Bảng xếp hạng này sẽ dựa trên hàng trăm trò chơi đằng sau hậu trường”, cung cấp một điểm chuẩn nghiêm ngặt hơn theo thời gian. Như Kaggle, Meg Risdal đã giải thích, trong khi giải đấu là một cách thú vị để tham gia bảng xếp hạng cuối cùng sẽ đại diện cho điểm chuẩn nghiêm ngặt của các mô hình khả năng của mình tại cờ vua mà chúng ta duy trì theo thời gian.”