Ang mga mananaliksik ng Google DeepMind ay nagmumungkahi ng ibang paraan upang ma-secure ang mga ahente ng Malaking Wika (LLM) laban sa pagmamanipula, paglipat ng lampas sa pagsasanay sa modelo o simpleng mga filter sa isang arkitektura na pagtatanggol na tinatawag na Camel (Kakayahan para sa Pag-aaral ng Machine).
Orchestrated sa pamamagitan ng agarang pag-atake ng iniksyon. Ang mga mananaliksik ng seguridad ay nag-highlight ng mga kahinaan sa multimodal GPT-4V ng Openai noong Oktubre 2023, kung saan ang mga tagubilin na nakatago sa loob ng mga imahe ay maaaring manipulahin ang modelo. Ipinakita ang mga pagsasamantala laban sa mga pag-andar ng memorya ng mga modelo tulad ng Google’s Gemini Advanced (Pebrero 2025) at dati nang Chatgpt (Setyembre 2024), na ipinapakita kung paano ang hindi direktang pag-iniksyon, na nadulas sa mga dokumento o email na naproseso ng ahente, ay maaaring magamit upang masira ang naka-imbak na data o impormasyon ng siphon. Ang mga pangyayaring ito ay binibigyang diin ang hamon ng paglikha ng tunay na matatag na panlaban laban sa mga kalaban na nagtatago ng mga nakakahamak na utos sa loob ng tila benign data input. Pinino nito ang pattern na”Dual LLM”, isang diskarte na tinalakay ng mga eksperto tulad ni Simon Willison na din
Ang layer ng seguridad na ito ay hindi libre. Ang pagtatasa ay nagpakita ng kamelyo na karaniwang nangangailangan ng halos 2.7 hanggang 2.8 beses na higit pang mga token (parehong input at output) sa average kumpara sa karaniwang paggamit ng tool ng LLM, lalo na dahil ang pribilehiyo na LLM ay maaaring mangailangan ng maraming mga pagtatangka upang makabuo ng error-free python code para sa interpreter. Ang mga pagpapabuti ay posible habang nagbabago ang mga modelo ng base. Ang isang kilalang lakas na naka-highlight ay ang diskarte ng kamelyo ng”hindi umaasa sa higit pang mga AI upang malutas ang mga problema sa AI,”na pinaghahambing ito ng mga probabilistikong panlaban na maaaring makamit ang mataas ngunit hindi sakdal na mga rate ng pagtuklas. Ang mga pag-atake sa side-channel, kung saan ang isang umaatake ay nagpapahiwatig ng impormasyon sa pamamagitan ng pag-obserba ng pag-uugali ng system kaysa sa pag-access ng data nang direkta, mananatiling isang pag-aalala. Impormasyon. Nag-aalok ito ng mas malakas na proteksyon ngunit potensyal na nangangailangan ng higit pang mga kumpirmasyon ng gumagamit para sa mga aksyon na kinasasangkutan ng sensitibong data, panganib na pagkapagod ng gumagamit. Higit pa sa Standard Prompt Injection, tulad ng isang gumagamit ng rogue na sumusubok na mag-abuso sa ahente na lumabag sa patakaran o isang nakakahamak na”tool ng spy”na sinusubukan na pasimpleng maipalabas ang data na naproseso ng ahente, ang mga senaryo na tinalakay sa seksyon 7 ng papel. Ang diskarte sa arkitektura-unang diskarte. Habang ang mga ahente ng AI ay nagiging mas awtonomiya-isang hinaharap na inaasahan ng mga eksperto sa industriya tulad ng CISO Jason Clinton ng Anthropic na kamakailan lamang ay inaasahang ang pagdating ng mga ahente ng”virtual na empleyado”-ang mga nakaayos na arkitektura ng seguridad ay maaaring maging kinakailangan.