Các nhà nghiên cứu của Google DeepMind đang đề xuất một cách khác để đảm bảo các tác nhân mô hình ngôn ngữ lớn (LLM) chống lại thao túng, vượt ra ngoài đào tạo mô hình hoặc các bộ lọc đơn giản sang phòng thủ kiến trúc gọi là lạc đà (khả năng học máy).
Chi tiết trong một bài báo Được công bố trên ARXIV Các cuộc tấn công kịp thời. Các nhà nghiên cứu bảo mật đã nhấn mạnh các lỗ hổng trong Multimodal GPT-4V của Openai vào tháng 10 năm 2023, trong đó các hướng dẫn ẩn trong hình ảnh có thể thao tác với mô hình.
Lớp bảo mật này không miễn phí. Phân tích cho thấy lạc đà thường yêu cầu khoảng 2,7 đến 2,8 lần mã thông báo (cả đầu vào và đầu ra) trung bình so với sử dụng công cụ LLM tiêu chuẩn, chủ yếu là do LLM đặc quyền có thể cần một số nỗ lực để tạo ra các yếu tố Python có tác động tốt hơn. Có thể khi các mô hình cơ sở phát triển. Một sức mạnh đáng chú ý được nhấn mạnh là cách tiếp cận của Camel, không dựa vào nhiều AI để giải quyết các vấn đề AI,”đối chiếu nó với khả năng phòng thủ xác suất có thể đạt được tỷ lệ phát hiện cao nhưng không hoàn hảo. Các cuộc tấn công kênh bên, trong đó một kẻ tấn công thông tin bằng cách quan sát hành vi hệ thống thay vì truy cập trực tiếp dữ liệu, vẫn là một mối quan tâm.
Để chống lại một số rủi ro này, Camel bao gồm chế độ diễn giải nghiêm ngặt”thực thi theo dõi phụ thuộc dữ liệu chặt chẽ hơn cho các câu lệnh lưu lượng điều khiển, thực hiện các hoạt động trong các vòng lặp hoặc điều kiện phụ thuộc vào chính biến điều kiện. Điều này cung cấp bảo vệ mạnh mẽ hơn nhưng có khả năng yêu cầu xác nhận người dùng nhiều hơn cho các hành động liên quan đến dữ liệu nhạy cảm, rủi ro mệt mỏi của người dùng. Tiêu chuẩn kịp thời, chẳng hạn như người dùng lừa đảo đang cố gắng lạm dụng tác nhân vi phạm chính sách hoặc một công cụ gián điệp độc hại”cố gắng giải phóng dữ liệu một cách thụ động được xử lý bởi các tác nhân, các kịch bản được thảo luận trong phần 7 Cách tiếp cận kiến trúc đầu tiên. Khi các đặc vụ AI trở nên tự trị hơn-một tương lai được dự đoán bởi các chuyên gia trong ngành như nhân viên nhân viên của Ciso Jason Clinton, người gần đây đã dự đoán sự xuất hiện của các nhân viên ảo của Hồi giáo”-các kiến trúc bảo mật có cấu trúc như vậy có thể ngày càng trở nên cần thiết.