I ricercatori di Google DeepMind stanno proponendo un modo diverso per proteggere gli agenti del modello di linguaggio di grandi dimensioni (LLM) contro la manipolazione, andando oltre la formazione del modello o i filtri semplici a una difesa architettonica chiamata Camel (Capacità per l’apprendimento automatico).

dettagliato in un documento pubblicato su arxiv , il cammello applica i dati di sicurezza consolidati di capacità di software consolidati di capacità di software consolidate di essere di sicurezza software consolidate di capacità di software consolidate di essere di sicurezza software consolidate di sicurezza software consolidati di sicurezza software consolidati di sicurezza del software consolidato. orchestrato attraverso rapidi attacchi di iniezione.

Il problema persistente dell’iniezione rapida

Nonostante gli sforzi in corso in tutto il settore, LLMS rimane suscettibile a varie forme di iniezione pronta. I ricercatori della sicurezza hanno messo in evidenza le vulnerabilità nel GPT-4v multimodale di Openi nell’ottobre 2023, in cui le istruzioni nascoste all’interno delle immagini potrebbero manipolare il modello.

Building Security attorno al LLM

L’architettura di cammello affronta questo trattando questo trattando questo problema trattando l’architettura del cammello trattandolo trattando questo trattando questo core di componenti LLM come potenzialmente non attento emergenti. Riflette il modello”Dual LLM”, un approccio discusso da esperti come Simon Willison che anche ha aiutato a identificare la classe di minaccia”pronta per l’iniezione”. Codice che rappresenta l’attività prevista dell’utente. Questo codice viene quindi eseguito da un interprete personalizzato, anziché avere le chiamate di strumento di orchestrare direttamente LLM. Questo interprete diventa il centro di controllo. Quando il codice deve interagire con dati non attendibili (come riassumere un’e-mail), invoca un LLM in quarantena che analizza semplicemente le informazioni in base a uno schema definito, senza avere la capacità di chiamare strumenti esterni. Le funzionalità, in questo contesto di sicurezza, funzionano come tag a grana fine e indispensabili allegati ai dati che specificano la sua provenienza (ad esempio, input dell’utente, uno strumento specifico) e diritti di accesso (ad esempio, quali utenti o strumenti possono leggerlo), attingendo ispirazione da sistemi di sicurezza informatica. I ricercatori spiegano nel loro documento, consentendo regole di sicurezza dettagliate basate su principi come il controllo del flusso di informazioni (monitoraggio della propagazione dei dati) e l’integrità del flusso di controllo (garantire che l’esecuzione segue i percorsi consentiti). Prima di eseguire qualsiasi funzione che interagisce con il mondo esterno (una chiamata dello strumento), l’interprete consulta le politiche di sicurezza predefinite, verificando se le capacità dei dati consentono l’azione prevista.

valutando l’efficacia del cammello

per valutare l’efficacia del cammello attraverso l’efficacia del cammello attraverso l’agente di valutazione basato sull’agente di valutazione basato sull’agente di valutazione, un agente di valutazione, un bastone per la valutazione del cammello, un bastone da parte di un agente di valutazione del cammello Compiti in domini come l’area di lavoro, il settore bancario, i viaggi e il gioco.

I loro risultati indicano che il cammello si è difeso con successo contro il 67% dei rapidi attacchi di iniezione del benchmark attraverso vari modelli, spesso riducendo gli attacchi di successo a zero per modelli come GPT-4O, anche senza politiche di sicurezza altamente specifiche. Questa prestazione contrasta con altri meccanismi di difesa valutati sullo stesso punto di riferimento, come Spotlighting (filtraggio di input) o sandwich prompt (istruzioni ripetute).

Questo livello di sicurezza non è gratuito. L’analisi ha mostrato che il cammello richiede in genere circa 2,7 a 2,8 volte più token (sia input che output) in media rispetto all’uso dello strumento LLM standard, principalmente perché la LLM privilegiata potrebbe aver bisogno di diversi tentativi per generare un codice Python senza errori per gli API più avanzati. Man mano che i modelli di base si evolvono. Una forza notevole evidenziata è l’approccio di Camel di”non fare affidamento su più intelligenza artificiale per risolvere i problemi di intelligenza artificiale”, in contrasto con difese probabilistiche che possono ottenere tassi di rilevamento elevati ma imperfetti.

oltre l’iniezione standard: canali laterali e strumenti di canaglia

I ricercatori di reperità di ambito non sono una soluzione completa. Gli attacchi del canale laterale, in cui un attaccante infrange le informazioni osservando il comportamento del sistema piuttosto che accedere direttamente ai dati direttamente, rimangono una preoccupazione.

Il documento dettaglia come un avversario potrebbe dedurre i dati privati ​​osservando le conseguenze indirette, ad esempio, controllando una partecipazione di un intervento di errore a causa di una partecipazione di un intervento di errore, a causa di un interruzione di errore in modo esterno. Informazioni.

Per contrastare alcuni di questi rischi, il cammello include una modalità di interpretazione”rigorosa”che applica il monitoraggio della dipendenza dei dati più severe per le dichiarazioni di flusso di controllo, rendendo operazioni all’interno di loop o condizionali dipendenti dalla variabile della condizione. Ciò offre una protezione più forte ma potenzialmente richiede più conferme utente per le azioni che coinvolgono dati sensibili, rischiando la fatica dell’utente.

Il documento suggerisce anche l’architettura di Camel, controllando l’esecuzione dello strumento e il flusso di dati, potrebbe offrire

mentre altri attori del settore hanno distribuito difese di Azure Ai Studio (prima con le tecniche di Filtering, Approccio distinto, per la prima architettura. Man mano che gli agenti AI diventano più autonomi-un futuro anticipato da esperti del settore come il Ciso Jason Clinton di Antropico che ha recentemente proiettato l’arrivo degli agenti”Employee Virtual Employee”-tali architetture di sicurezza strutturate potrebbero diventare sempre più necessarie.