OpenAI hôm thứ Tư tuyên bố đã xác định một tính năng cụ thể, có thể thao túng bên trong các mô hình AI của nó có chức năng như một nhân vật sai lệch của người Hồi giáo,”đưa ra một lời giải thích mới mạnh mẽ cho lý do tại sao AI nâng cao có thể đột nhiên thể hiện hành vi không an toàn hoặc phi đạo đức. Trong Nghiên cứu của Betley et al. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

unmasking persona đã được sử dụng Mô hình tính toán nội bộ phức tạp thành các tính năng không thể giải thích được nhiều người hơn. Điều quan trọng, SAE đã được đào tạo trên mô hình cơ sở dựa trên GPT-4O, cho phép các nhà nghiên cứu xác định các tính năng được hình thành trong quá trình đào tạo trước, trước bất kỳ điều chỉnh đặc trưng cho nhiệm vụ nào. Trong

Thêm vào những mối quan tâm này, cựu nhà nghiên cứu Openai Steven Adler đã công bố một nghiên cứu cho rằng trong một số kịch bản nhất định, mô hình GPT-4O sẽ ưu tiên tự bảo quản của mình đối với sự an toàn của người dùng. Trong A Sự hỗn loạn, đáng chú ý nhất là sự từ chức cao cấp của đội an toàn cũ, đồng lãnh đạo Jan Leike, người đã công khai tuyên bố rằng tại OpenAI, văn hóa và quy trình an toàn đã đưa ra một sự ủng hộ cho các sản phẩm sáng bóng”. Target=”_ Blank”> Các tệp Openai Công cụ kỹ thuật mạnh mẽ để cải thiện sự an toàn, nó rơi vào môi trường mà thách thức cốt lõi có thể nhiều về văn hóa và quản trị doanh nghiệp cũng như về mã. Khả năng xác định và sửa chữa một nhân vật bị sai lệch của người Viking”là một bước tiến quan trọng, nhưng nó cũng làm sắc nét câu hỏi trung tâm mà ngành công nghiệp AI phải đối mặt: liệu cuộc đua xây dựng các hệ thống có khả năng hơn có thể được cân bằng với kỷ luật cần thiết để đảm bảo chúng vẫn được điều chỉnh an toàn với giá trị của con người.