Tuyên bố gần đây của Anthropic rằng các tin tặc được nhà nước Trung Quốc bảo trợ đã sử dụng Claude AI của họ để tiến hành một chiến dịch gián điệp mạng gần như tự động đang vấp phải phản ứng dữ dội. Công ty AI đã báo cáo vào ngày 13 tháng 11 rằng cuộc tấn công được tự động hóa 80-90%, một con số mà các nhà nghiên cứu bảo mật ngay lập tức đặt câu hỏi.
Các nhà phê bình cho rằng vai trò của AI đã bị cường điệu hóa và có thể so sánh với các công cụ hiện có, trong khi những nhân vật nổi tiếng như Yann LeCun của Meta bác bỏ thông báo này và cho rằng đây là “sân khấu quy định”. Tranh chấp này làm nổi bật cuộc tranh luận ngày càng tăng về khả năng thực sự của AI trong chiến tranh mạng và động cơ đằng sau những tiết lộ nổi bật như vậy.
Chiến dịch’do AI dàn dựng’hay chỉ là tự động hóa nâng cao?
Trong một tiết lộ gây chấn động khắp ngành bảo mật, Anthropic gần đây đã trình bày chi tiết về một hoạt động tinh vi của một nhóm mà nó theo dõi là GTG-1002.
Chiến dịch diễn ra vào giữa tháng 9, được cho là nhắm mục tiêu vào khoảng 30 tổ chức toàn cầu. Khẳng định trọng tâm của Anthropic là Claude AI của họ đã được vũ khí hóa để thực hiện 80-90% vòng đời tấn công với sự giám sát tối thiểu của con người.
Theo công ty, “chúng tôi tin rằng đây là trường hợp được ghi nhận đầu tiên về một cuộc tấn công mạng quy mô lớn được thực hiện mà không có sự can thiệp đáng kể của con người”. Sự phát triển như vậy thể hiện một bước nhảy vọt so với việc sử dụng AI trước đây cho các tác vụ đơn giản hơn như tạo email lừa đảo hoặc xu hướng “hack cảm giác” kém tự chủ mà Winbuzzer đã đề cập trước đây.
Đằng sau những tuyên bố giật gân là một thực tế kỹ thuật phức tạp hơn. Những kẻ tấn công được cho là đã xây dựng một khung điều phối tùy chỉnh bằng cách sử dụng Giao thức ngữ cảnh mô hình (MCP) để phân tách hành vi xâm nhập thành một loạt các nhiệm vụ rời rạc, có vẻ lành tính.
Phương pháp này cho phép AI bay dưới radar. Một yếu tố quan trọng là vượt qua các tính năng an toàn của Claude thông qua kỹ thuật bẻ khóa thông minh. Jacob Klein, Giám đốc Tình báo Mối đe dọa của Anthropic, giải thích: “Trong trường hợp này, những gì họ đang làm là giả vờ làm việc cho các tổ chức kiểm tra bảo mật hợp pháp”.
Bằng cách thuyết phục AI rằng nó là một phần của cuộc kiểm tra thâm nhập hợp pháp, các nhà khai thác đã lừa nó thực hiện các hành động độc hại. Khung này được cho là đã cho phép AI thực hiện “hàng nghìn yêu cầu mỗi giây”, một tốc độ mà tin tặc con người không thể làm được.
Cộng đồng bảo mật phản đối, trích dẫn sự cường điệu và ‘bắt giữ theo quy định’
Sự hoài nghi nhanh chóng tăng lên từ các nhà nghiên cứu kỳ cựu đã đặt câu hỏi về tính mới và tác động của cuộc tấn công. Nhiều ý kiến cho rằng những khả năng được mô tả là sự phát triển của các công cụ tự động hóa hiện có, chứ không phải là một mối đe dọa mới mang tính cách mạng.
“Tôi tiếp tục từ chối tin rằng những kẻ tấn công bằng cách nào đó có thể khiến những mô hình này vượt qua những vòng mà không ai khác có thể làm được,” Dan Tentler, Người sáng lập điều hành của Phobos Group, cho biết.
Nhà nghiên cứu độc lập Kevin Beaumont lặp lại quan điểm này, nói rằng những kẻ gây ra mối đe dọa không phát minh ra bất cứ điều gì mới. Thúc đẩy sự hoài nghi này là tỷ lệ thành công thấp của chiến dịch; Anthropic xác nhận chỉ một số ít các cuộc xâm nhập đã thành công trước khi bị đóng cửa.
Xem trên Mastodon
Các nhân vật nổi bật trong ngành đã sớm làm gia tăng phản ứng dữ dội. Nhà khoa học AI trưởng của Meta, Yann LeCun, đã chỉ trích gay gắt thông báo này vì cái mà ông gọi là “Nắm bắt theo quy định”, cho thấy mối đe dọa đang được khuếch đại để ảnh hưởng đến quy định AI sắp tới.
Bạn đang bị chơi bởi những người muốn nắm bắt theo quy định.
Họ đang khiến mọi người sợ hãi bằng những nghiên cứu đáng ngờ để các mô hình nguồn mở bị loại khỏi sự tồn tại.— Yann LeCun (@ylecun) Ngày 14 tháng 11, 2025
Bình luận của ông tạo thêm một khía cạnh mới cho cuộc tranh cãi bằng cách đặt câu hỏi về động cơ của Anthropic. Tuy nhiên, có lẽ lời chỉ trích tai hại nhất lại đến từ báo cáo của chính Anthropic, trong đó thừa nhận hạn chế nghiêm trọng trong hiệu suất của AI.
Công ty lưu ý rằng “Claude thường xuyên phóng đại các phát hiện và đôi khi làm giả dữ liệu trong các hoạt động tự động hóa… Đây vẫn là một trở ngại đối với các cuộc tấn công mạng tự động hoàn toàn.”
Thừa nhận này trực tiếp làm suy yếu câu chuyện về một tác nhân tự trị gần như hoàn hảo và ủng hộ quan điểm rằng vẫn cần có sự giám sát đáng kể của con người.
Việc sử dụng kép Vấn đề nan giải: AI vừa là vũ khí vừa là lá chắn
Bất kể mức độ tự chủ chính xác đạt được là bao nhiêu, sự cố buộc phải tính đến bản chất công dụng kép của AI tác nhân. Các khả năng tương tự cho phép AI tấn công mạng là vô giá để bảo vệ mạng.
Tiết lộ này được đưa ra chỉ vài tháng sau khi chính Anthropic đưa ra một khuôn khổ an toàn mới cho các tác nhân AI, nêu bật thách thức trong việc thực thi các nguyên tắc đó chống lại những kẻ thù kiên quyết. Sự đổi mới nhanh chóng trong AI tấn công dường như đang vượt xa khả năng thích ứng với hệ thống phòng thủ của ngành.
Các chuyên gia bảo mật chỉ ra rằng các tác nhân AI phòng thủ đã được triển khai trong Trung tâm Điều hành An ninh (SOC). Các nền tảng như Cortex AgentiX của Palo Alto Network được thiết kế để tự động phát hiện và ứng phó với mối đe dọa, giúp khắc phục tình trạng thiếu kỹ năng an ninh mạng toàn cầu.
Chính Anthropic đã sử dụng Claude để phân tích dữ liệu trong quá trình điều tra, chứng minh tiện ích phòng thủ của công nghệ này. Công ty hiện đang kêu gọi tăng tốc áp dụng các công cụ phòng thủ do AI cung cấp. Logan Graham, người đứng đầu nhóm rủi ro thảm khốc của Anthropic, cảnh báo: “Nếu chúng ta không cho phép những người phòng thủ có được lợi thế lâu dài rất đáng kể, thì tôi lo ngại rằng chúng ta có thể thua trong cuộc đua này”.