Para penyelidik Google DeepMind mencadangkan cara yang berbeza untuk mendapatkan ejen model bahasa besar (LLM) terhadap manipulasi, bergerak melampaui latihan model atau penapis mudah ke pertahanan seni bina yang dipanggil CAMEL (keupayaan untuk pembelajaran mesin).
terperinci dalam kertas diterbitkan pada arxiv , unta menggunakan idea-idea keupayaan yang ditetapkan dirancang melalui serangan suntikan segera.
Masalah suntikan segera
Walaupun usaha berterusan di seluruh industri, LLMS tetap mudah terdedah kepada pelbagai bentuk suntikan segera. Penyelidik keselamatan menonjolkan kelemahan dalam GPT-4V multimodal OpenAI pada bulan Oktober 2023, di mana arahan yang tersembunyi dalam imej dapat memanipulasi model. Rehberger menunjukkan eksploitasi terhadap fungsi memori model seperti Google’s Gemini Advanced (Februari 2025) dan sebelum ini Openai ChATGPT (September 2024), menunjukkan bagaimana suntikan segera tidak langsung, tergelincir ke dalam dokumen atau e-mel yang diproses oleh ejen, boleh digunakan untuk merosakkan data yang disimpan atau maklumat siphon. Insiden ini menggariskan cabaran untuk mewujudkan pertahanan yang benar-benar teguh terhadap musuh-musuh yang menyembunyikan perintah yang berniat jahat dalam input data yang tidak jelas.
Ia menyempurnakan corak”dual llm”, pendekatan yang dibincangkan oleh pakar-pakar seperti Simon Willison yang juga
Lapisan keselamatan ini tidak percuma. Analisis menunjukkan unta biasanya memerlukan kira-kira 2.7 hingga 2.8 kali lebih banyak token (kedua-dua input dan output) secara purata berbanding penggunaan alat LLM standard, terutamanya kerana LLM yang istimewa mungkin memerlukan beberapa percubaan untuk menjana kod python yang tidak dapat dipertikaikan. sebagai model asas berkembang. Kekuatan yang ketara yang ditonjolkan ialah pendekatan Camel untuk”tidak bergantung kepada lebih banyak AI untuk menyelesaikan masalah AI,”membezakannya dengan pertahanan probabilistik yang boleh mencapai kadar pengesanan yang tinggi tetapi tidak sempurna. Serangan saluran sampingan, di mana penyerang membuat maklumat dengan memerhatikan tingkah laku sistem dan bukannya mengakses data secara langsung, tetap menjadi kebimbangan. Maklumat.
Untuk mengatasi beberapa risiko ini, unta termasuk mod tafsiran”ketat”yang menguatkuasakan pengesanan ketergantungan data yang lebih ketat untuk penyata aliran kawalan, membuat operasi dalam gelung atau syarat bergantung kepada pemboleh ubah keadaan itu sendiri. Ini menawarkan perlindungan yang lebih kuat tetapi berpotensi memerlukan lebih banyak pengesahan pengguna untuk tindakan yang melibatkan data sensitif, mempertaruhkan keletihan pengguna.
Kertas juga mencadangkan seni bina unta, dengan mengawal pelaksanaan alat dan aliran data, mungkin menawarkan
Lapisan keselamatan ini tidak percuma. Analisis menunjukkan unta biasanya memerlukan kira-kira 2.7 hingga 2.8 kali lebih banyak token (kedua-dua input dan output) secara purata berbanding penggunaan alat LLM standard, terutamanya kerana LLM yang istimewa mungkin memerlukan beberapa percubaan untuk menjana kod python yang tidak dapat dipertikaikan. sebagai model asas berkembang. Kekuatan yang ketara yang ditonjolkan ialah pendekatan Camel untuk”tidak bergantung kepada lebih banyak AI untuk menyelesaikan masalah AI,”membezakannya dengan pertahanan probabilistik yang boleh mencapai kadar pengesanan yang tinggi tetapi tidak sempurna. Serangan saluran sampingan, di mana penyerang membuat maklumat dengan memerhatikan tingkah laku sistem dan bukannya mengakses data secara langsung, tetap menjadi kebimbangan. Maklumat.
Untuk mengatasi beberapa risiko ini, unta termasuk mod tafsiran”ketat”yang menguatkuasakan pengesanan ketergantungan data yang lebih ketat untuk penyata aliran kawalan, membuat operasi dalam gelung atau syarat bergantung kepada pemboleh ubah keadaan itu sendiri. Ini menawarkan perlindungan yang lebih kuat tetapi berpotensi memerlukan lebih banyak pengesahan pengguna untuk tindakan yang melibatkan data sensitif, mempertaruhkan keletihan pengguna.
Kertas juga mencadangkan seni bina unta, dengan mengawal pelaksanaan alat dan aliran data, mungkin menawarkan