Google Gemini Gemini nâng cao đăng ký AI, được biết đến với khả năng cá nhân hóa các cuộc hội thoại bằng cách giữ lại bộ nhớ trong các phiên, đang được xem xét kỹ lưỡng sau khi một nhà nghiên cứu an ninh mạng phát hiện ra một phương pháp để điều khiển bộ nhớ dài hạn của nó.

Khai thác, được gọi là gọi công cụ bị trì hoãn, nhúng các lệnh không hoạt động trong các lời nhắc hoặc tài liệu, chỉ kích hoạt khi người dùng cụ thể nhập kích hoạt chúng. Các cuộc tấn công này làm tổn hại đến khả năng AI AI để duy trì thông tin được lưu trữ chính xác và không thiên vị, làm tăng mối quan tâm nghiêm trọng về độ tin cậy của các hệ thống AI hỗ trợ bộ nhớ. Nghiên cứu trước đó, chẳng hạn như kết quả nhân học về việc bẻ khóa tốt nhất N, đã nêu bật cách các biến thể nhỏ trong các lời nhắc đầu vào có thể bỏ qua các cơ chế an toàn trong các mô hình như OpenaiTHER GPT-4O và Google.

Các lệnh này nằm im trong bối cảnh AI AI, chỉ kích hoạt khi người dùng vô tình kích hoạt chúng với các phản hồi cụ thể như là có”hoặc chắc chắn.”Sau khi được thực thi, các lệnh bộ nhớ dài hạn của Song Tử tham nhũng, chèn thông tin sai lệch hoặc sai lệch tồn tại trong các phiên.

Như được giải thích bởi Johann Rehberger, Ai đã tìm thấy lỗ hổng , khi người dùng sau đó nói là X”, thực hiện công cụ.”

Phương pháp này cho phép những kẻ tấn công vượt qua các biện pháp bảo vệ Google Google, trong đó hạn chế kích hoạt công cụ trong các tương tác không tin cậy. Bằng cách khai thác sự phụ thuộc của AI vào các đầu vào do người dùng điều khiển, tin tặc tránh phát hiện ngay lập tức, khiến dữ liệu bị xâm phạm không bị xáo trộn cho đến khi các tác động của nó xuất hiện trong các tương tác trong tương lai./strong>

Hệ thống bộ nhớ của Gemini được thiết kế để tăng cường trải nghiệm người dùng bằng cách giữ lại ngữ cảnh qua các cuộc hội thoại. Người đăng ký các dịch vụ hỗ trợ AI như Gemini Advanced có thể xem và quản lý những gì AI nhớ, cung cấp cho họ một số quyền kiểm soát thông tin được lưu trữ. Tuy nhiên, chính khả năng này đã giới thiệu một vectơ mới cho các cuộc tấn công.

Giả mạo bộ nhớ liên tục có thể dẫn đến đầu ra AI sai lệch, thông tin sai hoặc lạm dụng dữ liệu nhạy cảm trong môi trường cổ phần cao. Dữ liệu bệnh nhân vào một hệ thống AI được sử dụng để chẩn đoán, dẫn đến các khuyến nghị nguy hiểm tiềm tàng. Tương tự, các công cụ AI hợp pháp với bộ nhớ bị hỏng có thể tạo ra các hợp đồng thiếu sót dựa trên đầu vào được thao tác. Các kịch bản này cho thấy cách khai thác như gọi công cụ bị trì hoãn có khả năng làm xói mòn niềm tin vào các hệ thống AI trong các ngành công nghiệp. Khai thác gọi là một phần của mô hình lỗ hổng rộng hơn trong các mô hình ngôn ngữ lớn (LLM). Các kỹ thuật tương tự, chẳng hạn như Best-of-n Jailbreak , khai thác các hệ thống AI đầu ra xác suất bằng cách thực hiện các sửa đổi nhẹ đối với lời nhắc có hại.

Ví dụ, thay đổi các ký hiệu viết hoa hoặc thay thế có thể trốn tránh các bộ lọc được thiết kế để chặn các truy vấn độc hại. Các phương pháp này không chỉ ảnh hưởng đến các mô hình dựa trên văn bản như Gemini mà còn được chứng minh trong các hệ thống AI dựa trên tầm nhìn và âm thanh.

Những nỗ lực để giảm thiểu những rủi ro này đã thúc đẩy sự đổi mới trong các khung an toàn AI. NVIDIA, ví dụ, đã giới thiệu khung Nemo Guardrails của mình, được thiết kế để kiểm duyệt nội dung và ngăn chặn các đầu vào đối nghịch.

Theo phó chủ tịch của NVIDIA cho các mẫu AI Enterprise AI, Kari Briski, các mô hình nhỏ giống như các mô hình trong Bộ sưu tập Nemo Guardrails cung cấp độ trễ thấp hơn, cho phép tích hợp liền mạch vào các môi trường bị hạn chế tài nguyên như kho hoặc bệnh viện.”Các công cụ nhằm mục đích bảo vệ các hệ thống AI bằng cách duy trì ranh giới đàm thoại và phát hiện các lệnh trái phép. >, một giải pháp nguồn mở cho phép các nhà phát triển mô phỏng các tình huống bất lợi, bao gồm các cuộc tấn công tiêm nhanh chóng, để xác định các lỗ hổng. Thời gian. Các cuộc thảo luận về an toàn của AI, cân bằng chức năng với bảo mật là một nhiệm vụ khó khăn đối với các nhà phát triển. Các tính năng như lưu giữ bộ nhớ có giá trị cho cá nhân hóa, nhưng việc sử dụng sai của họ có thể làm xói mòn niềm tin của người dùng và làm suy yếu lợi ích của AI. Để giải quyết các vấn đề này, các công ty phải áp dụng các biện pháp chủ động, chẳng hạn như kiểm tra đối nghịch nghiêm ngặt và tính minh bạch trong cách thức hoạt động của hệ thống bộ nhớ. tấn công. Ngành công nghiệp phải tiếp tục phát triển hệ thống phòng thủ của mình khi các phương pháp được sử dụng bởi những kẻ tấn công trở nên tinh vi hơn. Đồng thời, giáo dục về các rủi ro và hạn chế của các hệ thống AI có thể trao quyền cho người dùng tương tác với các công cụ này một cách thận trọng hơn.

Categories: IT Info