OpenAI hôm thứ Tư tuyên bố đã xác định một tính năng cụ thể, có thể thao túng bên trong các mô hình AI của nó có chức năng như một nhân vật sai lệch của người Hồi giáo,”đưa ra một lời giải thích mới mạnh mẽ cho lý do tại sao AI nâng cao có thể đột nhiên thể hiện hành vi không an toàn hoặc phi đạo đức. Trong Nghiên cứu của Betley et al. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>
unmasking persona đã được sử dụng Mô hình tính toán nội bộ phức tạp thành các tính năng không thể giải thích được nhiều người hơn. Điều quan trọng, SAE đã được đào tạo trên mô hình cơ sở dựa trên GPT-4O, cho phép các nhà nghiên cứu xác định các tính năng được hình thành trong quá trình đào tạo trước, trước bất kỳ điều chỉnh đặc trưng cho nhiệm vụ nào. Trong
Categories: IT Info