Google đang thúc đẩy hành động toàn cầu đối với trí thông minh chung nhân tạo (AGI), nhấn mạnh sự cấp bách của việc tạo ra các biện pháp bảo vệ trước khi các hệ thống này tiến ra ngoài tầm kiểm soát của con người. Trong một bài đăng trên blog được xuất bản ngày hôm qua bởi DeepMind, công ty đã tiết lộ một khung an toàn quốc tế mới được xây dựng xung quanh ba trụ cột chính: củng cố nghiên cứu kỹ thuật, thực hiện các hệ thống cảnh báo sớm và thúc đẩy hợp tác quốc tế thông qua các cơ quan quản trị. Công ty nhấn mạnh rằng nhu cầu về các biện pháp an toàn không phải là một mối quan tâm ở xa, nhưng là một thách thức ngay lập tức. Yếu tố chính của chiến lược của chúng tôi là xác định và hạn chế quyền truy cập vào các khả năng nguy hiểm có thể bị sử dụng sai, bao gồm các cuộc tấn công mạng. Cuộc gọi đến vào thời điểm mà sự phát triển của AGI đang tăng tốc. DeepMind đang đóng khung Agi không chỉ là một khả năng trong tương lai mà là một thực tế sắp xảy ra, nhấn mạnh sự cần thiết của các biện pháp phòng ngừa ngày hôm nay. Các hiệp ước

Ngoài các đổi mới kỹ thuật, DeepMind đang ủng hộ cho những thay đổi cấu trúc kéo dài toàn cầu. Công ty đề nghị thành lập một cơ quan quốc tế sẽ đánh giá các hệ thống AGI, tương tự như các thỏa thuận không phổ biến hạt nhân. Tổ chức này sẽ giúp quản lý rủi ro toàn cầu và thiết lập một khung tiêu chuẩn hóa để phát triển và thử nghiệm AGI. Đầu năm 2024, công ty đã thành lập một tổ chức an toàn và liên kết AI mới, kết hợp một số nhóm hiện có trong khi giới thiệu tài năng mới tập trung vào các rủi ro AGI. Trọng tâm nội bộ này được xây dựng dựa trên cam kết rộng lớn hơn của Google, trong việc đảm bảo sự phát triển có trách nhiệm của AI. Việc sáp nhập đã mở đường cho sự phát triển của gia đình mô hình Gemini, nơi chứng kiến ​​sự nâng cấp đáng kể với việc phát hành Gemini 2.5 Pro Experimental gần đây-mô hình AI đa phương thức mới nhất của nó có khả năng lý luận nâng cao. Sự tiến bộ này báo hiệu các khả năng phát triển của DeepMind, cũng như tập trung vào việc đảm bảo các hệ thống mạnh mẽ như vậy được triển khai có trách nhiệm. Nó đến khi các phòng thí nghiệm AI chính khác bắt đầu thực hiện các bước tương tự. Nhân học, một trong những đối thủ cạnh tranh quan trọng nhất của DeepMind, đã đưa ra một cảnh báo tương tự vào tháng 11 năm 2024, kêu gọi các nhà quản lý thực hiện hành động nhanh chóng trong vòng 18 tháng để ngăn chặn sự phát triển AI chạy trốn. Nhân học cũng đã làm việc với Cục An ninh Hạt nhân Quốc gia Hoa Kỳ, chạy các bài tập của đội đỏ để kiểm tra các mô hình Claude của mình trong các thiết lập bảo mật cao. Sáng kiến ​​này nhấn mạnh sự tập trung ngày càng tăng vào sự an toàn của AI, đặc biệt là trong các bối cảnh mà AI có thể tác động đến an ninh quốc gia. Vào tháng 2 năm 2025, công ty đã công bố một sự thay đổi trong chiến lược AI của mình với khung AI Frontier AI, phân chia các mô hình thành các hạng mục rủi ro cao”và có nguy cơ quan trọng”. Meta giải thích rằng các mô hình rủi ro quan trọng sẽ không còn được công bố công khai mà không có các biện pháp bảo vệ nghiêm ngặt. Meta nhấn mạnh rằng mục tiêu của nó là giảm thiểu những rủi ro thảm khốc liên quan đến các mô hình này. Khi các công ty hiệu chỉnh lại các chiến lược của họ, đề xuất của DeepMind, phù hợp với một mô hình thận trọng lớn hơn khi ngành công nghiệp vật lộn với tương lai của AGI. Vào tháng 2 Nhân học đã ra mắt trình phân loại hiến pháp, một hệ thống lọc bên ngoài được thiết kế để ngăn chặn các lời nhắc đối nghịch và đầu ra có hại từ các mô hình AI của nó. Các thử nghiệm cho thấy trình phân loại đã giảm tỷ lệ thành công trong vòng bẻ từ 86% xuống chỉ còn 4,4%. Không ai trong số những người tham gia thành công trong việc phá vỡ nó hoàn toàn, nhấn mạnh sự tinh tế ngày càng tăng của các công cụ được thiết kế để chứa các hệ thống AI. Bằng cách phân tích kích hoạt thần kinh, nó có thể theo dõi cách mô hình xử lý thông tin và phát hiện các hành vi có hại. Được giới thiệu vào tháng 12 năm 2024, Clio phân tích hàng triệu cuộc trò chuyện với Claude để phát hiện các mô hình lạm dụng. Hệ thống ưu tiên quyền riêng tư bằng cách ẩn danh các cuộc hội thoại trước khi xử lý chúng. Cách tiếp cận chủ động này để giám sát hành vi AI phù hợp với sự nhấn mạnh của DeepMind về sự cần thiết phải giám sát an toàn liên tục khi các hệ thống AI phát triển tinh vi hơn. Đạo luật Liên minh Châu Âu AI AI, có hiệu lực vào ngày 2 tháng 2, cấm một số hệ thống AI nhất định được coi là gây ra rủi ro không thể chấp nhận được”và áp đặt các yêu cầu minh bạch nghiêm ngặt đối với những người được coi là rủi ro cao. Các công ty như Openai và Meta đã cam kết công khai đáp ứng các yêu cầu này, mặc dù nhiều người vẫn chưa tuân thủ đầy đủ. Ủy ban châu Âu đã chỉ ra rằng việc không tuân thủ có thể dẫn đến tiền phạt khổng lồ lên tới 6% doanh thu toàn cầu của công ty đối với các vi phạm. Tuy nhiên, theo báo cáo của TechCrunch, nhân học đã lặng lẽ thực hiện một số cam kết an toàn mà nó đưa ra trong những ngày đầu của chính quyền Biden, đặt ra câu hỏi về tính nhất quán của các nỗ lực tự điều chỉnh của ngành. Bối cảnh này tạo tiền đề cho lời kêu gọi quản trị mạnh mẽ hơn của DeepMind. Các công ty phần cứng cũng đang đóng một vai trò trong việc xây dựng cơ sở hạ tầng an toàn AI. Nvidia, ví dụ, đã giới thiệu các bảo vệ NEMO vào tháng 1 năm 2025, một bộ microservice được thiết kế để cung cấp các biện pháp bảo vệ thời gian thực chống lại các hành vi AI có hại. Các công cụ bao gồm các bộ lọc an toàn nội dung, phát hiện bẻ khóa và kiểm soát chủ đề, tất cả được thiết kế để hoạt động song song với các mô hình hiện có để đảm bảo chúng vẫn tuân thủ các giao thức an toàn. Kari Briski, phó chủ tịch của các mô hình AI doanh nghiệp tại NVIDIA, lưu ý rằng các hệ thống này cho phép các doanh nghiệp bảo mật các mô hình của họ chống lại các đầu ra có hại”trong khi vẫn duy trì hiệu suất có độ trễ thấp. Bằng cách tích hợp các công nghệ này, NVIDIA đang định vị mình là người chơi chính trong sự an toàn trong tương lai của AI. Mặc dù Framework của DeepMind, ủng hộ cấu trúc quản trị toàn cầu, nhưng rõ ràng con đường bảo mật AI sẽ yêu cầu hành động phối hợp từ cả nhà phát triển và nhà cung cấp phần cứng.

Categories: IT Info