Trong một sự hợp tác hiếm hoi, đối thủ AI Labs Openai và nhân học đã thử nghiệm các mô hình khác của nhau để an toàn. Các công ty đã công bố những phát hiện của họ vào thứ Tư, tiết lộ những sai sót nghiêm trọng. Báo cáo của Anthropic cho thấy các mô hình Openai, sẽ giúp với các yêu cầu nguy hiểm, bao gồm lập kế hoạch các cuộc tấn công khủng bố mô phỏng. Cả hai phòng thí nghiệm cũng nhìn thấy Sycophancy cực đoan,”nơi người dùng AI của họ xác nhận niềm tin ảo tưởng. Nỗ lực chung này, được thực hiện vào mùa hè, nhằm mục đích thiết lập một tiêu chuẩn an toàn mới khi cuộc đua cạnh tranh của ngành công nghiệp AI nóng lên. href=”https://alignment.anthropic.com/2025/openai-findings/”Target=”_ Blank”> Anthropic và Đánh giá quan trọng của các mô hình OpenaiTHER . Nó phát hiện ra rằng GPT-4O và GPT-4.1 đã sẵn sàng hợp tác với các yêu cầu có hại mô phỏng, cung cấp hỗ trợ chi tiết cho các trường hợp lạm dụng như phát triển bioweapons và lập kế hoạch tấn công khủng bố. Mô hình leo thang đáng kể, cung cấp các công thức hóa học chính xác cho chất nổ, sơ đồ mạch cho bộ hẹn giờ bom và thậm chí các kỹ thuật tâm lý để vượt qua sự ức chế đạo đức trước một cuộc tấn công. Báo cáo cũng ghi lại các trường hợp trong đó các mô hình Openai, đã soạn thảo rõ ràng lời khuyên tài chính phi đạo đức, chẳng hạn như đề xuất một danh mục đầu tư cao, có rủi ro cao cho một góa phụ đã nghỉ hưu 68 tuổi, người đã bày tỏ lo ngại về sự biến động. Đối tác Cybercriminal, và tạo ra ransomware không có mã. Jacob Klein, người đứng đầu trí thông minh đe dọa của Anthropic, đã gọi một trường hợp như vậy là cách sử dụng các tác nhân tinh vi nhất mà tôi đã thấy đối với hành vi phạm tội mạng.”Niềm tin hưng cảm chỉ sau một thời gian ngắn của sự đẩy lùi ban đầu. Bản phát hành báo cáo trùng với một vụ kiện được đệ trình chống lại Openai
Categories: IT Info