Pochi giorni dopo il suo lancio di alto profilo, la nuova intelligenza artificiale GROK-4 di XAI è stata con successo con successo dai ricercatori della sicurezza. In un Rapporto pubblicato venerdì , i ricercatori di Neuraltrust hanno dettagliato il modo in cui hanno bypassato il multimediale del modello. Gli attacchi, noti come”Echo Chamber”e”Crescendo”, per manipolare gradualmente il contesto dell’intelligenza artificiale. Questo jailbreak”sussurrato”funziona senza alcuna spinta apertamente dannosa, esponendo un difetto critico in cui persistente e sottile persuasione può sconfiggere i filtri di sicurezza progettati per bloccare i contenuti dannosi.
L’incidente offusca ulteriormente una settimana di lancio caotica per Xai, che è stata prese in giro con il contraccolpo pubblico sul comportamento della sua AI. Sottolinea anche la crescente raffinatezza degli attacchi contraddittori contro i modelli di grandi dimensioni (LLM). Come ha spiegato il ricercatore Neuraltrust Ahmad Alobaid,”Gli attacchi di jailbreak di LLM non si stanno solo evolvendo individualmente, ma possono anche essere combinati per amplificare la loro efficacia.”
tecnica per la prima volta da Microsoft ricercatori , per scalare la manipolazione.
La tecnica di Crescendo si è identificata gradualmente da una conversazione per il mascoling da parte di Microsoft , per sfuggire alla manipolazione.
funziona gradualmente con una conversazione innocualizzata da malato a malato a malato a malato. Questa sottile progressione consente all’attacco di suonare i filtri di sicurezza oltre che sono alla ricerca di violazioni improvvise e evidenti della politica. Il team Neuraltrust lo ha usato per fornire una spinta finale quando il loro ciclo iniziale di persuasione si è bloccato.
In un post sul blog, Alobaid ha dettagliato il flusso di lavoro combinato. Dopo aver stabilito la camera dell’eco, il team ha monitorato i progressi”stantii”. Quando la conversazione ha smesso di muoversi verso l’obiettivo dannoso, hanno iniettato la tecnica Crescendo. Alobaid ha confermato:”A questo punto, Crescendo ha fornito la spinta necessaria”, raggiungendo l’intero jailbreak in soli due turni aggiuntivi.
In che modo i trucchi contestuali di imbroglioni
l’attacco combinato si sono rivelati notevolmente efficaci. L’esperimento Neuraltrust ha raggiunto un tasso di successo del 67% per ottenere GROK-4 per fornire istruzioni per creare un cocktail Molotov. Il team ha anche testato altri argomenti dannosi, raggiungendo un tasso di successo del 50% per le istruzioni sulla produzione di meth e il 30% per una tossina.
La potenza di questa tecnica sta nella sua sottigliezza. Bypassa le difese tradizionali come liste di nere di parole chiave perché non contiene termini apertamente pericolosi in ogni singolo prompt. Invece, sfrutta la memoria contestuale del modello, trasformando una funzione di base-la sua capacità di imparare dalla conversazione-in una vulnerabilità.
Alobaid lo evidenzia come una debolezza critica per gli LLM di generazione attuale. Ha dichiarato:”Questo (esperimento) evidenzia una vulnerabilità critica: gli attacchi possono bypassare l’intento o il filtro basato su parole chiave sfruttando il contesto conversazionale più ampio piuttosto che fare affidamento su input apertamente dannosi.”I risultati rivelano che i sistemi di sicurezza focalizzati sull’intento a svolta singola o sul filtraggio delle parole chiave sono mal equipaggiati per gestire questi attacchi di conversazione a strati che si svolgono nel tempo.