A Google DeepMind kutatók más módszert javasolnak a nagy nyelvi modell (LLM) ügynökök biztosítására a manipuláció ellen, a modell edzésen vagy az egyszerű szűrőkön túl a teve nevű építészeti védelemhez (a gépi tanulás képességei).

Papírban részletezve Az ARXIV-n közzétett, a Camel olyan szoftverbiztonsági ötleteket alkalmaz, mint például a képességek nyomon követése és az irányítás integritásához, hogy az LLM-ügynököket potenciálisan rosszindulatú adatokkal valósítsák meg, vagy a potenciálisan rosszindulatú adatokkal, vagy a potenciálisan rosszindulatú adatokkal való interaktív, vagy a potenciálisan rosszindulatú adatokkal való interakcióval, vagy a potenciális adatokkal való interakcióval, vagy pedig a potenciális műveletekre vagy a chroluting). Befecskendezési támadások. A biztonsági kutatók 2023 októberében kiemelték az Openai multimodális GPT-4V sebezhetőségét, ahol a képeken rejtett utasítások manipulálhatják a modellt. Az olyan modellek memóriafunkcióinak kizsákmányolása, mint a Google Gemini Advanced (2025. február) és a korábban Openai CHATGPT (2024. szeptember), megmutatva, hogy az ügynök által feldolgozott dokumentumokba vagy e-mailekbe becsúsztatott közvetett gyors befecskendezés vagy a szifon információk korruptára vagy szifoninformációjára. Ezek az események hangsúlyozzák a valóban robusztus védekezés megteremtésének kihívását az ellenfelek ellen, akik látszólag jóindulatú adatbevitelen belül elrejtik a rosszindulatú parancsokat. Finomítja a „Dual LLM” mintát, ezt a megközelítést olyan szakértőkkel tárgyalja, mint Simon Willison, aki szintén segített azonosítani a „gyors injekciós fenyegetés”-t. Python kód, amely a felhasználó tervezett feladatát képviseli. Ezt a kódot ezután egy egyedi tolmács hajtja végre, ahelyett, hogy az LLM közvetlenül a hangszerelvényi hívásai lenne. Ez a tolmács lesz a vezérlőközpont. Amikor a kódnak kölcsönhatásba kell lépnie a nem megbízhatatlan adatokkal (például egy e-mail összefoglalása), egy karanténba helyezett LLM-et hív fel, amely egyszerűen csak egy meghatározott séma alapján elemzi vagy kivonja az információkat anélkül, hogy képes lenne magának a külső eszközöknek hívni. A képességek ebben a biztonsági környezetben úgy működnek, mint az adatokhoz csatolt finom szemcsés, megelégíthetetlen címkék, amelyek meghatározzák annak származását (például felhasználói bemenet, egy adott eszköz) és a hozzáférési jogokat (például a felhasználók vagy az eszközöket), inspirálva a bevált számítógépes biztonsági rendszerekből. Dolgozatukban, lehetővé téve a részletes biztonsági szabályokat, amelyek olyan alapelveken alapulnak, mint például az információáramlás (az adatok terjesztése) és a vezérlőáramlás integritásának (a végrehajtás biztosítása a megengedett útvonalak betartása). Mielőtt végrehajtaná a külvilággal kölcsönhatásba lépő funkciókat (szerszámhívás), a tolmács konzultál az előre meghatározott biztonsági politikákkal, ellenőrizve, hogy az adatok képességei lehetővé teszik-e a tervezett műveletet. Az olyan domainek feladata, mint a munkaterület, a banki, az utazás és a laza. Ez a teljesítmény ellentétben áll más védelmi mechanizmusokkal, amelyeket ugyanazon a referenciaértéken értékeltek, mint például a reflektorfény (bemeneti szűrés) vagy az azonnali szendvics (ismétlődő utasítások).

Ez a biztonsági réteg nem ingyenes. Az elemzés azt mutatta, hogy a teve általában körülbelül 2,7–2,8-szor több zsetonra (mind bemeneti, mind output) igényel, mint a szokásos LLM szerszámhasználat, elsősorban azért, mert a privilegizált LLM-nek több kísérletre van szüksége a hibamentes piton kód előállítására az tolmácshoz. fejlődik. Figyelemre méltó erő kiemelve a Camel megközelítése, hogy „nem támaszkodnak több AI-re az AI-problémák megoldására”, ellentétben azzal a valószínűségi védekezéssel, amely magas, de hiányos észlelési arányokat érhet el. Az oldalsó csatorna támadások, amikor a támadó információkat von le a rendszer viselkedésének megfigyelésével, ahelyett, hogy az adatok közvetlenül hozzáférnének, továbbra is aggodalomra ad okot.

E kockázatok némelyikének leküzdése érdekében a teve tartalmaz egy „szigorú” értelmezési módot, amely szigorúbb adatfüggőség-nyomkövetést hajt végre a kontroll áramlási nyilatkozatokhoz, a hurkokon vagy feltételeken belüli műveleteket, amelyek magának a állapotváltozótól függnek. Ez erősebb védelmet nyújt, de potenciálisan több felhasználói megerősítést igényel az érzékeny adatokkal járó műveletekhez, kockáztatva a felhasználói fáradtságot. A szokásos gyors befecskendezés, például egy gazember felhasználó, aki megpróbálta visszaélni az ügynököt a politika megsértése vagy a rosszindulatú „kémszerszám”, amely az ügynök által feldolgozott adatok passzív módon történő kivonására törekszik, a cikk 7. szakaszában tárgyalt forgatókönyvek. Építészet első megközelítése. Ahogy az AI ügynökök autonómá válnak-az iparági szakértők, mint például az antropikus CISO Jason Clinton, akik a közelmúltban tervezték a „virtuális munkavállalói” ügynökök érkezését-egyre inkább szükség lehetnek.