Nhà vô địch cờ vua thế giới Magnus Carlsen, chiến thắng dễ dàng trước TATGPT vào ngày 10 tháng 7 minh họa rõ ràng trạng thái nghịch lý của ngành công nghiệp AI. Trong khi Carlsen tháo dỡ một cách có phương pháp các chatbot phổ biến, AI Labs bị khóa trong một cuộc chiến khốc liệt về quyền lực tối cao, việc chào hàng thành tích siêu phàm. Tuy nhiên, tiến trình này bị che mờ bởi tranh cãi, vì các mô hình như XAI, Grok 4 phải đối mặt với những lời chỉ trích vì bị quá tải vì điểm chuẩn, thiên vị và không an toàn. src=”https://winbuzzer.com/wp-content/uploads/2025/07/chess.jpg”>
Một người kiểm tra Grandmaster đã đặt ra giai đoạn
Trong một bài đăng trên X, anh ấy đã chia sẻ ảnh chụp màn hình về chiến thắng quyết định của mình trước Tuntpt, Quipping đơn giản, đôi khi tôi cảm thấy buồn chán khi đi du lịch.”Trận đấu phục vụ như một cuộc biểu tình mạnh mẽ, công khai về một tâm trí con người ưu tú phá hủy một AI đa năng.
Carlsen không chỉ là bất kỳ Grandmaster nào; Ông được coi là người chơi cờ tốt nhất trong lịch sử. Người Na Uy đã giành chức vô địch cờ vua thế giới năm lần, gần đây nhất là vào năm 2021 và nắm giữ World FIDE cao nhất ở mức 2839 . Bất chấp sự thống trị của mình, anh ta đã không tham gia Giải vô địch truyền thống kể từ chiến thắng cuối cùng của anh ta, với lý do thiếu động lực, nhấn mạnh vị trí độc đáo của anh ta trong môn thể thao này. Bối cảnh này thiết lập anh ta là chuẩn mực cuối cùng của con người trong cờ vua, khiến chiến thắng bình thường của anh ta trước một AI hàng đầu đặc biệt quan trọng.
Chiến thắng không chỉ là một chiến thắng; Đó là một sự tháo dỡ hoàn hảo. Carlsen đã kiểm tra AI chỉ trong 53 động tác mà không mất một mảnh nào. Theo các ảnh chụp màn hình được chia sẻ, Chatgpt đã mất tất cả những con tốt của mình trước khi buộc phải từ chức trận đấu, giới thiệu lợi thế chiến lược có phương pháp và áp đảo của Grandmaster. Sau khi AI khen anh ta, nói rằng, đó là phương pháp, sạch sẽ và sắc nét. Target=”_ Blank”> Thời gian . href=”https://twitter.com/magnuscarlsen/status/1943473946063474990?ref_src=twsrc%5etfw”Target=”Hiệu suất của Carlsen và ước tính sức mạnh cổ điển của mình là khoảng 1800-2000. Đánh giá này rất khó khăn, vì xếp hạng fide thực tế của Carlsen là 2839, khiến anh trở thành người chơi được xếp hạng hàng đầu không thể tranh cãi trên thế giới. Mặc dù có khả năng thực hiện các nhiệm vụ phức tạp và tạo văn bản lịch sự, mạch lạc, AI đã thể hiện sự bất lực sâu sắc để nắm bắt bối cảnh thực sự. Nó đã không nhận ra nó đang thi đấu với người chơi vĩ đại nhất trong lịch sử hiện đại. Nó đặt giai đoạn cho cuộc đua vũ trang AI leo thang và khung hình cơ bản của thời đại hiện tại: các hệ thống này có thực sự có lý do, hoặc chúng chỉ đơn thuần là nâng cao, nhưng giòn, không phù hợp với mô hình? Toán học ưu tú. Trong một chương trình giới thiệu về sức mạnh lý luận tuyệt đẹp, cả Openai và Google Deepmind đều công bố các mô hình của họ đã chinh phục Olympic toán học quốc tế (IMO). Các mô hình vận hành từ đầu đến cuối trong ngôn ngữ tự nhiên, xử lý các vấn đề và tạo bằng chứng mà không cần sự can thiệp của con người hoặc các ngôn ngữ chính thức chuyên biệt cần thiết trong các nỗ lực trước đây. Tôi đã rất vui mừng được chia sẻ rằng LLM Lý luận thử nghiệm mới nhất của chúng tôi đã đạt được một thách thức lớn trong AI,”anh đăng trên X, đóng khung nó như một cột mốc quan trọng đối với AI đa năng.
chỉ hai ngày sau đó, Google Deepmind đã đưa ra thông báo riêng. Gemini AI của nó, được tăng cường với công nghệ suy nghĩ sâu sắc”, cũng kiếm được huy chương vàng, kết quả chính thức được chứng nhận bởi các điều phối viên IMO. Chủ tịch IMO, Giáo sư Tiến sĩ Gregor Dolinar đã xác nhận thành tích này, nói rằng, chúng tôi có thể xác nhận rằng Google Deepmind đã đạt được cột mốc quan trọng rất nhiều, các giải pháp của họ đã đáng kinh ngạc ở nhiều khía cạnh.”Openai Lừa Sebastien Bubeck ngạc nhiên rằng một máy dự đoán từ tiếp theo”có thể tạo ra những bằng chứng sáng tạo thực sự”. Điều này cho thấy công nghệ cơ bản đang trở nên linh hoạt và mạnh mẽ hơn. Công ty đã ra mắt mô hình Grok 4 vào ngày 10 tháng 7, tự hào về điểm số phá kỷ lục trong các bài kiểm tra học thuật.
Triumph đã tồn tại trong thời gian ngắn. Phân tích độc lập nhanh chóng cho thấy mô hình này đã bị quá tải”, đối với các bài kiểm tra ACE với chi phí cho khả năng sử dụng trong thế giới thực. Nền tảng ưu tiên người dùng Yupp.ai ban đầu xếp hạng Grok 4 A Dismal 66. Người đồng sáng lập của nó, Jimmy Lin, đã tuyên bố thẳng thừng, Grok Grok 4 còn tệ hơn các mô hình hàng đầu khác: Openai O3, Claude Opus 4 và Gemini 2.5 Pro. Grok 4 thậm chí còn ít hơn Grok 3.”Nó đã theo một lời xin lỗi chính thức cho người tiền nhiệm của nó trong”Meltdown chống lại”chống lại, mà công ty đổ lỗi cho một lỗi kỹ thuật của người Hồi giáo”. Để làm cho vấn đề tồi tệ hơn, các nhà nghiên cứu bảo mật tại NeuralTrust đã bỏ tù thành công mô hình trong vòng 48 giờ. Cuộc cạnh tranh khốc liệt đang buộc các công ty cân bằng sự phát triển nhanh chóng với những lo ngại về an toàn quan trọng. Nó đã thực hiện các giao thức an toàn ASL-3 nghiêm ngặt cho mô hình Claude 4 mạnh mẽ sau khi thử nghiệm nội bộ cho thấy các rủi ro an toàn sinh học tiềm năng. Nhà khoa học trưởng Jared Kaplan thừa nhận sự nguy hiểm, nói rằng, bạn có thể cố gắng tổng hợp một cái gì đó như covid hoặc một phiên bản nguy hiểm hơn của bệnh cúm và về cơ bản, mô hình của chúng tôi cho thấy điều này có thể là có thể.”Những bất đồng công khai về chiến lược kinh doanh và chính định nghĩa của AGI đã thử nghiệm liên minh. Giám đốc điều hành của Microsoft Satya Nadella đã bác bỏ ý tưởng về việc Openai đơn phương tuyên bố AGI là người Mỹ tự tuyên bố một số cột mốc AGI, đó chỉ là hack điểm chuẩn vô nghĩa.”Kịch, sự hợp tác công nghệ của họ tiếp tục. Microsoft đã chuẩn bị chế độ mới thông minh”cho Copilot, được thiết kế đặc biệt để tích hợp mô hình GPT-5 sắp tới của Openai. Động thái này báo hiệu rằng, bây giờ, nhu cầu đổi mới được chia sẻ vượt xa sự cạnh tranh của công ty.