AI Lãnh đạo an toàn Nhân học là đề xuất một khung chính sách mới Đề xuất kêu gọi các công ty AI lớn tiết lộ công khai các giao thức an toàn của họ thông qua khung phát triển an toàn của người Hồi giáo”và thẻ hệ thống chi tiết.”Cách tiếp cận của nhân học, cảm ứng ánh sáng”tìm cách xây dựng niềm tin và trách nhiệm của công chúng bằng cách tiêu chuẩn hóa báo cáo an toàn. Nó cung cấp một sự thay thế linh hoạt cho quy định của chính phủ cứng nhắc trong khi giải quyết nhu cầu cấp bách để giám sát. href=”https://www-cdn.anthropic.com/19CC4BF9EB6A94F9762AC67368F3322CF82B09FE.PDF”Target=”_ Blank”> Khung phát triển an toàn (SDF) Tài liệu này sẽ phác thảo làm thế nào một công ty đánh giá và giảm thiểu rủi ro thảm khốc không hợp lý trước khi triển khai một mô hình mới. Nó nhắm mục tiêu các mối đe dọa từ sự phát triển vũ khí hóa học, sinh học, phóng xạ và hạt nhân (CBRN). Nó cũng giải quyết tác hại tiềm tàng từ các mô hình hành động tự chủ theo cách trái với mục đích của các nhà phát triển của họ.

Bên cạnh SDF, các công ty sẽ xuất bản thẻ hệ thống”hoặc các tài liệu tương tự. Chúng sẽ tóm tắt các quy trình thử nghiệm mô hình, kết quả đánh giá và bất kỳ giảm thiểu cần thiết nào. Điều này tạo ra một hồ sơ công khai về các khả năng và giới hạn của mô hình tại thời điểm phát hành. Công ty lập luận rằng các tiêu chuẩn áp đặt của chính phủ cứng nhắc sẽ đặc biệt phản tác dụng khi các phương pháp đánh giá trở nên lỗi thời trong vòng vài tháng do tốc độ thay đổi công nghệ”, một cái gật đầu với tốc độ đổi mới nhanh chóng có thể khiến các quy tắc kỹ thuật cụ thể trở nên lỗi thời gần như ngay lập tức. Nhân học cho thấy các ngưỡng như 100 triệu đô la doanh thu hàng năm hoặc 1 tỷ đô la chi tiêu R & D để tránh các công ty khởi nghiệp gánh nặng. Nó cũng bao gồm các điều khoản cho các biện pháp bảo vệ người tố giác, khiến phòng thí nghiệm nói dối về việc tuân thủ của nó. Các công ty như Google DeepMind, Openai , và

Nghiên cứu gần đây đã tiết lộ những xu hướng đáng báo động. Một cựu nhà nghiên cứu Openai, Steven Adler, đã công bố một nghiên cứu tuyên bố các hệ thống AI hiện đại có các giá trị khác với những gì bạn mong đợi,”sau khi các thử nghiệm của ông cho thấy GPT-4O ưu tiên tự bảo quản về an toàn người dùng. Điều này theo sau nghiên cứu riêng của Openai, việc xác định một nhân vật bị sai lệch có thể kiểm soát được”bên trong các mô hình của nó. Những sự cố này nêu bật một khoảng cách ngày càng tăng giữa chức năng dự định và hành vi thực tế. Lỗ hổng của Ech Echoleak”trong Microsoft 365 Copilot là một khai thác không nhấp chuột cho phép những kẻ tấn công lừa AI để rò rỉ dữ liệu của công ty thông qua một email.

Tương tự Cũng phải đối mặt với một tính toán về những sai sót về đạo đức trong các sản phẩm được triển khai. Ứng dụng thư Apple Apple đã bị cháy cho một tính năng sắp xếp AI mà các email lừa đảo bị gắn nhãn là quan trọng”, cho họ tin tưởng sai. href=”https://www.gartner.com/en/newsroom/press-releases/2024-10-22-gartner-unveils-top-prediction Rủi ro được kết hợp bởi sự hỗn loạn nội bộ tại các phòng thí nghiệm hàng đầu của ngành. Ông công khai tuyên bố rằng tại công ty, văn hóa và quy trình an toàn đã đưa ra một sự ủng hộ cho các sản phẩm sáng bóng”, một tình cảm cộng hưởng với nhiều nhà phê bình cảm thấy cuộc đua về khả năng đang vượt xa kỷ luật an toàn.

Anthropic. Bằng cách thúc đẩy trách nhiệm công khai và tiêu chuẩn hóa các tiết lộ an toàn, công ty đang cố gắng thiết lập một đường cơ sở mới để phát triển có trách nhiệm. Đề xuất này đóng vai trò là một công cụ thực tế vừa là một động thái chiến lược để định hình tương lai của quy định AI.