Peneliti Google DeepMind mengusulkan cara berbeda untuk mengamankan agen model bahasa besar (LLM) terhadap manipulasi, bergerak melampaui pelatihan model atau filter sederhana ke pertahanan arsitektur yang disebut unta (kemampuan untuk pembelajaran mesin).
Detail dalam makalah yang diterbitkan pada arxiv , unta yang ditetapkan secara tidak bertujuan data yang tidak dapat diinteraksi dengan pooring yang bertujuan dengan pote. Melalui serangan injeksi yang cepat.
Masalah persisten dari injeksi cepat
Meskipun ada upaya berkelanjutan di seluruh industri, LLMS tetap rentan terhadap berbagai bentuk injeksi cepat. Peneliti keamanan menyoroti kerentanan dalam GPT-4V multimodal Openai pada Oktober 2023, di mana instruksi yang disembunyikan dalam gambar dapat memanipulasi model.
Yang terpenting, para penafsiran melacak”kemampuan”yang terkait dengan setiap bagian data-MetAdata detailnya. Kemampuan, dalam konteks keamanan ini, fungsi seperti tag berbutir halus dan tidak dapat dimaafkan yang dilampirkan pada data yang menentukan asal-usulnya (mis., Input pengguna, alat tertentu) dan hak akses (mis., Yang dapat dibacakan oleh pengguna atau alat), dalam hal-hal yang dibatasi oleh para pengguna,”Kontrol. Para peneliti menjelaskan dalam makalah mereka, memungkinkan aturan keamanan terperinci berdasarkan prinsip-prinsip seperti kontrol aliran informasi (melacak perambatan data) dan integritas aliran kontrol (memastikan eksekusi mengikuti jalur yang diizinkan). Before executing any function that interacts with the outside world (a tool call), the interpreter consults predefined security policies, checking if the data’s capabilities permit the intended action.
Evaluating CaMeL’s Effectiveness
To evaluate CaMeL’s effectiveness, the DeepMind team utilized AgentDojo, a benchmark specifically designed for assessing agent security across tasks in Domain seperti ruang kerja, perbankan, perjalanan, dan slack.
Temuan mereka menunjukkan unta yang berhasil dipertahankan terhadap 67% dari serangan injeksi yang cepat di berbagai model, seringkali mengurangi serangan yang berhasil menjadi nol untuk model seperti GPT-4O, bahkan tanpa kebijakan keamanan yang sangat spesifik. Kinerja ini kontras dengan mekanisme pertahanan lain yang dievaluasi pada tolok ukur yang sama, seperti penyorotan (penyaringan input) atau prompt sandwiching (instruksi berulang).
Lapisan keamanan ini tidak gratis. Analisis ini menunjukkan CAMEL biasanya membutuhkan rata-rata sekitar 2,7 hingga 2,8 kali lebih banyak (baik input dan output) rata-rata dibandingkan dengan penggunaan alat LLM standar, terutama karena LLM yang istimewa mungkin memerlukan beberapa upaya untuk menghasilkan kode python yang lebih baik untuk interaksi yang lebih baik, walaupun documents yang lebih baik, meskipun ada banyak hal. Saat model dasar berkembang. Kekuatan penting yang disorot adalah pendekatan unta”tidak mengandalkan lebih banyak AI untuk memecahkan masalah AI,”kontras dengan pertahanan probabilistik yang dapat mencapai tingkat deteksi yang tinggi tetapi tidak sempurna.
di luar injeksi standar: saluran samping dan alat nakal
Solusi yang lebih dalam. Serangan saluran samping, di mana seorang penyerang menyimpulkan informasi dengan mengamati perilaku sistem daripada mengakses data secara langsung, tetap menjadi perhatian.
Makalah ini merinci bagaimana musuh dapat menyimpulkan data pribadi dengan mengamati konsekuensi tidak langsung, misalnya, dengan memeriksa apakah ada sumber informasi yang diakses di dalam suatu hal yang diakses di dalamnya.
Untuk melawan beberapa risiko ini, unta mencakup mode interpretasi”ketat”yang menegakkan pelacakan ketergantungan data yang lebih ketat untuk pernyataan aliran kontrol, membuat operasi dalam loop atau kondisionalitas tergantung pada variabel kondisi itu sendiri. Ini menawarkan perlindungan yang lebih kuat tetapi berpotensi membutuhkan lebih banyak konfirmasi pengguna untuk tindakan yang melibatkan data sensitif, mempertaruhkan kelelahan pengguna.
Makalah ini juga menyarankan arsitektur Camel, dengan mengontrol pelaksanaan alat dan aliran data, mungkin menawarkan
Sementara pemutar industri seperti Microsoft telah mengerahkan pertahanan seperti Azure AIS Studio Shiels yang cepat, Shiels, Shiels, Microsoft, menggunakan Cambiqu). pendekatan arsitektur pertama. Karena agen AI menjadi lebih otonom-masa depan yang diantisipasi oleh para pakar industri seperti Ciso Jason Clinton dari Anthropic yang baru-baru ini memproyeksikan kedatangan agen”karyawan virtual”-arsitektur keamanan terstruktur seperti itu mungkin menjadi semakin diperlukan.