Google Deepmind-tutkijat ehdottavat erilaista tapaa turvata suuret kielimalli (LLM)-agentit manipulointia vastaan, siirtämällä malliharjoittelua tai yksinkertaisia suodattimia arkkitehtoniseen puolustukseen nimeltä Camel (koneoppimisen ominaisuudet).
Yksityiskohtaisesti artikkelissa julkaistu arxiv , Camel soveltaa vakiintuneita ohjelmistoideoita, kuten kapasiteetin seuranta ja hallintavirtauksen eheys Shield LLM-käytöiden kanssa, jotka ovat vuorovaikutteisia toimien kanssa. nopea injektiohyökkäykset.
nopea injektioongelma
Huolimatta alan jatkuvista ponnisteluista, LLM: t ovat edelleen alttiita nopean injektion eri muodolle. Turvallisuustutkijat korostivat haavoittuvuuksia Openaiin multimodaalisessa GPT-4V: ssä lokakuussa 2023, jossa kuvien sisällä piilotetut ohjeet voisivat manipuloida mallia.
Turvallisuuden rakentaminen LLM
Camelin arkkitehtuuriin käsittelee tätä käsittelemällä ydinympäristöä, joka on potentiaalisesti epäterveelliset mustat laatikot ja rakentamalla varustettuja excuution-ympäristöä. Se tarkentaa “kaksois LLM”-kuviota, lähestymistapaa, jota keskustellaan Simon Willison, joka myös auttoi tunnistamaan “kehotetun injektion”uhkioluokka takaisin 2022. edustaa käyttäjän tarkoitettua tehtävää. Tämän jälkeen mukautettu tulkki suorittaa tämän koodin sen sijaan, että LLM: n suoraan järjestäisi työkalupuheluita. Tästä tulkista tulee ohjauskeskus. Kun koodin on oltava vuorovaikutuksessa epäluotettamattomien tietojen kanssa (kuten yhteenveto sähköpostien) kanssa, se vetoaa karanteeniin perustuvaan LLM: ään, joka yksinkertaisesti jäsentää tai poimii määriteltyyn kaavioon perustuvia tietoja ilman, että sillä on kyky kutsua ulkoisia työkaluja itse. Tässä tietoturvayhteydessä toimivat ominaisuudet, kuten hienorakeiset, unohtumattomat tunnisteet, jotka on liitetty tietoihin, jotka määrittelevät sen alkuperän (esim. Käyttäjän syöttö, tietty työkalu) ja käyttöoikeuksien (esim. Mitä käyttäjät tai työkalut voivat lukea sitä), piirtäen inspiraatiota vakiintuneista tietoturvajärjestelmistä.
“Camel Associates-sovelluksen yhdistäminen, joihinkin metatietoihin,”Selitä heidän artikkelissaan yksityiskohtaiset tietoturvasäännöt, jotka perustuvat periaatteisiin, kuten tiedonkulun hallinta (seurantatietojen eteneminen) ja ohjausvirran eheys (varmistetaan, että suorituksen noudatetaan sallittuja polkuja). Ennen kuin suoritetaan minkä tahansa toiminnon, joka on vuorovaikutuksessa ulkomaailman kanssa (työkalupuhelu), tulkki kuulee ennalta määritettyjä turvallisuuskäytäntöjä tarkistamalla, sallivatko tietojen ominaisuudet suunnitellun toiminnan.
Camelin tehokkuus
arvioida Camelin tehokkuus-ryhmän määräämistä koskeva agentti. Tehtävät aloilla, kuten työtila, pankki, matka ja löysä.
Niiden havainnot osoittavat, että kameli puolusti onnistuneesti 67 prosentilla vertailukohdan nopeasta injektiohyökkäyksestä eri malleissa, vähentäen usein GPT-4O: n kaltaisten mallejen onnistuneita hyökkäyksiä, jopa ilman erityisiä turvallisuuspolitiikkaa. Tämä suorituskyky on ristiriidassa muiden samassa vertailukohdassa arvioitujen puolustusmekanismien kanssa, kuten valokeilassa (syöttösuodatus) tai nopea voileipä (toistuvat ohjeet).
Tämä tietoturvakerros ei ole ilmainen. Analyysi osoitti, että kameli vaatii tyypillisesti noin 2,7-2,8 kertaa enemmän tokeneja (sekä syöttöä että lähtöä) verrattuna tavanomaiseen LLM-työkalujen käyttöön, ensisijaisesti siksi, että etuoikeutettu LLM saattaa tarvita useita yrityksiä tuottaa virheettömiä python-koodia tulkille.
agentti-apuohjelma näki jonkin verran vaikutusta, etenkin tehtävissä, jotka vaativat parannuksia, jotka ovat tehokkaampia AS-alusterveyksiä. kehittyy. Huomattava lujuus korostettuna on Camelin lähestymistapa”ei luota enemmän AI: hen AI-ongelmien ratkaisemiseksi”,”vastakohtana siihen todennäköisellä puolustuksella, joka voi saavuttaa korkeat, mutta epätäydelliset havaitsemisnopeudet. Sivukanava-hyökkäykset, joissa hyökkääjä päättelee tietoja tarkkailemalla järjestelmän käyttäytymistä sen sijaan, että pääsee suoraan tietoihin, pysy huolenaiheena.
artikkelissa kerrotaan siitä, kuinka vastustaja voi päätellä yksityisiä tietoja tarkkailemalla epäsuoria seurauksia, esimerkiksi tarkistamalla, onko ulkoinen resurssi toistuvasti silmukassa, jonka erottelukeskuksessa on erillinen Tiedot.
joidenkin näiden riskien torjumiseksi kameli sisältää “tiukan”tulkintatilan, joka pakottaa tiukemman tietojen riippuvuuden seurannan ohjausvirtauslausekkeille, tekemällä operaatioita silmukoissa tai ehdollisissa olosuhteissa, jotka riippuvat itse olosuhteet muuttujasta. Tämä tarjoaa vahvemman suojan, mutta mahdollisesti vaatii enemmän käyttäjän vahvistuksia arkaluontoisten tietojen aiheuttamille toimille, mikä riski käyttäjän väsymystä. Injektio, kuten vilpillinen käyttäjä, joka yrittää väärinkäyttää edustajaa väärinkäytön rikkomiseen tai agentin käsittelemien passiivisesti puristamaan passiivisesti paperin 7 osassa olevissa skenaarioissa. Arkkitehtuurin ensimmäinen lähestymistapa. Kun AI: n edustajat muuttuvat itsenäisemmiksi-tulevaisuuden, jota antropisin CISO Jason Clintonin kaltaiset alan asiantuntijat odottavat, joka äskettäin ennusti”virtuaalisten työntekijöiden”saapumisen-tällaiset jäsennellyt turvallisuusarkkitehtuurit voivat tulla yhä välttämättömämiksi.