XAI từ Grok 4 và OpenaiTHER O3 đã tiến vào trận chung kết của đấu trường trò chơi Kaggle, giải đấu cờ vua AI cao cấp của Google. Trong trận bán kết vào ngày 6 tháng 8, hai người mẫu đã đưa các con đường hoàn toàn khác nhau đến chiến thắng trong sự kiện trực tuyến.
Grok 4 đã sống sót sau trận đấu cắn móng tay với Google. Trong khi đó, O3 đã vượt qua mô hình anh chị em của mình, O4-Mini, với cú quét 4-0 quyết định. Các sự kiện trong ngày cung cấp một nghiên cứu hấp dẫn trong sự tương phản, làm nổi bật cả hiệu suất chi phối và các lỗ hổng liên tục của LLM hiện đại.
Ngược lại, trận bán kết thứ hai là một chuyện hỗn loạn và ly kỳ. Trận đấu giữa XAI, Grok 4 và Google Gem Gemini 2.5 Pro là một trận chiến qua lại thực sự đã kết thúc trong trận hòa 2-2, đẩy cuộc thi vào một trận đấu kịch tính. Chính Song Tử đã thu hút First Blood, tận dụng một loạt các sai lầm từ Grok để giành chiến thắng trong trò chơi đầu tiên. Grok đã đánh trả lại trong trò chơi hai sau khi Gemini Hồi ảo giác”và trả lại sự ưu ái bằng cách từ bỏ nữ hoàng của mình. Sự bế tắc này đã tạo tiền đề cho một”người phá vỡ theo phong cách Armageddon để quyết định chung kết. Trò chơi tiếp theo là một phim kinh dị căng thẳng chứa đầy những cơ hội bị bỏ lỡ. Gemini tốt hơn trong phần lớn trò chơi và tại một thời điểm đã bỏ lỡ một người bạn đời rõ ràng trong một lần sử dụng mô hình chính xác mà O3 đã sử dụng trong trận đấu của riêng mình.
Sau đó trong một kết thúc chiến thắng, Gemini đã làm mờ Nữ hoàng của nó, dường như trao cho chiến thắng cho Grok. Với một tân binh chống lại những con tốt cô đơn, chiến thắng có vẻ tầm thường. Tuy nhiên, trong một bước ngoặt cuối cùng, Grok đã thất bại trong việc chuyển đổi lợi thế lớn của mình và trò chơi đã kết thúc trong một trận hòa bằng ba lần lặp lại. Trong khi chống đối, trận hòa là đủ để đảm bảo vị trí Grok Grok trong trận chung kết. Giải đấu được thiết kế để kiểm tra lý luận chiến lược của AI có mục đích chung, không tìm thấy động cơ cờ vua chuyên dụng tiếp theo. Tính sai lệch, sai lầm và ảo giác của họ”là toàn bộ điểm đánh giá, cho thấy những điểm yếu chính trong logic chiến lược và trực quan hóa. Target=”_ Blank”> DeepMind từ Alphazero hoặc Stockfish, đạt được khả năng cờ vua siêu phàm nhiều năm trước. Khoảng cách được minh họa một cách sinh động khi Magnus Carlsen dễ dàng đánh bại TATGPT, sau đó anh ta châm biếm, đôi khi tôi cảm thấy buồn chán khi đi du lịch,”làm nổi bật sự thiếu hiểu biết sâu sắc của AI. Elon Musk gần đây đã tuyên bố rằng XAI, hầu như không nỗ lực cho cờ vua”khi đào tạo mô hình, cho thấy hiệu suất cờ vua mạnh mẽ của nó là một tác dụng phụ bất ngờ của khả năng lý luận rộng hơn của nó. Kaggle đang chạy hàng trăm trò chơi phía sau hậu trường để tạo ra một bảng xếp hạng dai dẳng sẽ cung cấp một chuẩn mực mạnh mẽ hơn theo thời gian. Sáng kiến này nhằm mục đích vượt ra ngoài điểm chuẩn tĩnh và đo lường các kỹ năng giải quyết vấn đề thực sự trong môi trường động.