Google DeepMind-forskere foreslår en annen måte å sikre store språkmodell (LLM) agenter mot manipulering, bevege seg utover modelltrening eller enkle filtre til et arkitektonisk forsvar kalt Camel (evner for maskinlæring).
Detaljert i et papir Publisert på Arxiv , bruker Camel eller Actions Software Sikkerhetsideer som Capability Tracking and Control Integrity for å skjære LLLL-Malmas for å beskytte Malmaty for å beskytte deg for å gjøre det. Orkestrert gjennom hurtig injeksjonsangrep.
Det vedvarende problemet med hurtig injeksjon
Til tross for kontinuerlig innsats i hele bransjen, forblir LLMS mottakelige for forskjellige former for hurtig injeksjon. Sikkerhetsforskere fremhevet sårbarheter i Openais multimodale GPT-4V tilbake i oktober 2023, der instruksjoner skjult i bilder kunne manipulere modellen.
hjalp til å identifisere”hurtig injeksjon”trussel-PROVIL LL LL=2022. Python-kode som representerer brukerens tiltenkte oppgave. Denne koden blir deretter utført av en tilpasset tolk, i stedet for å ha LLM direkte orkestrate verktøyanrop. Denne tolken blir kontrollsenteret. Når koden må samhandle med upålitelige data (som å oppsummere en e-post), påkaller den en karantene LLM som ganske enkelt analyserer eller trekker ut informasjon basert på et definert skjema, uten å ha muligheten til å ringe eksterne verktøy selv.
avgjørende, interpreter-sporene”tilknyttet alle stykker av data-MetaTa-detaljerende detaljering og mulighet”. Evner, i denne sikkerhetskonteksten, fungerer som finkornet, utilgivelige tagger knyttet til data som spesifiserer dens herkomst (f.eks. Brukerinngang, et spesifikt verktøy) og tilgangsrettigheter (f.eks. Hvilke brukere eller verktøy kan lese den), hente inspirasjon til å etablere datasikkerhetssystem. Forskere forklarer i papiret, noe som muliggjør detaljerte sikkerhetsregler basert på prinsipper som informasjonsflytkontroll (sporing av datautbredelse) og kontrollflytintegritet (sikre at utførelsen følger tillatte stier). Før tolken gjennomfører en funksjon som samhandler med omverdenen (et verktøyanrop), forhindrer tolken, forhåndsdefinerte sikkerhetspolicyer, og sjekker om dataens funksjoner tillater den tiltenkte handlingen.
Evaluering av Camels effektivitet
for å evaluere Camel’s Effektivitet for å vurdere AgitS-agentet Agates A-en som er en binding for å evaluere Camels effektivitet. Domener som arbeidsområde, bank, reise og slakk.
Funnene deres indikerer at Camel vellykket forsvarte mot 67% av referanseindustriens hurtige injeksjonsangrep på tvers av forskjellige modeller, og reduserer ofte vellykkede angrep til null for modeller som GPT-4O, selv uten svært spesifikke sikkerhetspolitikk på plass. Denne ytelsen står i kontrast til andre forsvarsmekanismer evaluert på samme målestokk, for eksempel søkelys (inngangsfiltrering) eller rask sandwiching (gjenta instruksjoner).
Dette sikkerhetslaget er ikke gratis. Analysen viste at CAMEL typisk krever rundt 2,7 til 2,8 ganger flere symboler (både inngang og utgang) i gjennomsnitt sammenlignet med standard LLM-verktøybruk, først og fremst fordi den privilegerte LLM kan trenge flere forsøk på å generere feilfri python-kode for tolk.
agent. Etter hvert som basismodeller utvikler seg. En bemerkelsesverdig styrke som er fremhevet er Camels tilnærming til å”ikke stole på mer AI for å løse AI-problemer,”kontrasterer den med sannsynlige forsvar som kan oppnå høye, men ufullkomne deteksjonshastigheter.
utover standardinjeksjon: Sidekanaler og Rogue-verktøy er ikke en
DEFPMIND-forskningsverktøy. Sidekanalsangrep, der en angriper gir informasjon ved å observere systematferd i stedet for å få tilgang til data direkte, forblir en bekymring.
Papiret beskriver hvordan en motstander kan utlede private data ved å observere indirekte konsekvenser, for eksempel ved å sjekke at en ekstern ressurs får tilgang til gjentatte ganger i en sløyfe, hvis en iterasjonsoppgave er feil, eller en Informasjon.
For å motvirke noen av disse risikoene, inkluderer CAMEL en”streng”tolkningsmodus som håndhever strammere datavaskingssporing for kontrollflytuttalelser, og gjør operasjoner innen løkker eller betingelser avhengig av selve tilstandsvariabelen. Dette gir sterkere beskyttelse, men potensielt krever flere brukerbekreftelser for handlinger som involverer sensitive data, og risikerer brukerutmattelse.
Papiret antyder også at Camels arkitektur, ved å kontrollere verktøyutførelse og dataflyt, kan tilby