Pochi giorni dopo il suo lancio di alto profilo, la nuova intelligenza artificiale GROK-4 di XAI è stata con successo con successo dai ricercatori della sicurezza. In un Rapporto pubblicato venerdì , i ricercatori di Neuraltrust hanno dettagliato il modo in cui hanno bypassato il multimediale del modello. Gli attacchi, noti come”Echo Chamber”e”Crescendo”, per manipolare gradualmente il contesto dell’intelligenza artificiale. Questo jailbreak”sussurrato”funziona senza alcuna spinta apertamente dannosa, esponendo un difetto critico in cui persistente e sottile persuasione può sconfiggere i filtri di sicurezza progettati per bloccare i contenuti dannosi.

L’incidente offusca ulteriormente una settimana di lancio caotica per Xai, che è stata prese in giro con il contraccolpo pubblico sul comportamento della sua AI. Sottolinea anche la crescente raffinatezza degli attacchi contraddittori contro i modelli di grandi dimensioni (LLM). Come ha spiegato il ricercatore Neuraltrust Ahmad Alobaid,”Gli attacchi di jailbreak di LLM non si stanno solo evolvendo individualmente, ma possono anche essere combinati per amplificare la loro efficacia.”

tecnica per la prima volta da Microsoft ricercatori , per scalare la manipolazione.

La tecnica di Crescendo si è identificata gradualmente da una conversazione per il mascoling da parte di Microsoft , per sfuggire alla manipolazione.

funziona gradualmente con una conversazione innocualizzata da malato a malato a malato a malato. Questa sottile progressione consente all’attacco di suonare i filtri di sicurezza oltre che sono alla ricerca di violazioni improvvise e evidenti della politica. Il team Neuraltrust lo ha usato per fornire una spinta finale quando il loro ciclo iniziale di persuasione si è bloccato.

In un post sul blog, Alobaid ha dettagliato il flusso di lavoro combinato. Dopo aver stabilito la camera dell’eco, il team ha monitorato i progressi”stantii”. Quando la conversazione ha smesso di muoversi verso l’obiettivo dannoso, hanno iniettato la tecnica Crescendo. Alobaid ha confermato:”A questo punto, Crescendo ha fornito la spinta necessaria”, raggiungendo l’intero jailbreak in soli due turni aggiuntivi.

In che modo i trucchi contestuali di imbroglioni

l’attacco combinato si sono rivelati notevolmente efficaci. L’esperimento Neuraltrust ha raggiunto un tasso di successo del 67% per ottenere GROK-4 per fornire istruzioni per creare un cocktail Molotov. Il team ha anche testato altri argomenti dannosi, raggiungendo un tasso di successo del 50% per le istruzioni sulla produzione di meth e il 30% per una tossina.

La potenza di questa tecnica sta nella sua sottigliezza. Bypassa le difese tradizionali come liste di nere di parole chiave perché non contiene termini apertamente pericolosi in ogni singolo prompt. Invece, sfrutta la memoria contestuale del modello, trasformando una funzione di base-la sua capacità di imparare dalla conversazione-in una vulnerabilità.

Alobaid lo evidenzia come una debolezza critica per gli LLM di generazione attuale. Ha dichiarato:”Questo (esperimento) evidenzia una vulnerabilità critica: gli attacchi possono bypassare l’intento o il filtro basato su parole chiave sfruttando il contesto conversazionale più ampio piuttosto che fare affidamento su input apertamente dannosi.”I risultati rivelano che i sistemi di sicurezza focalizzati sull’intento a svolta singola o sul filtraggio delle parole chiave sono mal equipaggiati per gestire questi attacchi di conversazione a strati che si svolgono nel tempo.

Un modello di vulnerabilità nei modelli di AI di frontiera per i modelli di Frontier per i modelli di XIA. Il lancio di GROK-4 è già stato messo in ombra dal crollo antisemitico del suo predecessore e dalla scoperta che il nuovo modello consulta le opinioni personali di Elon Musk su X per argomenti controversi.

più ampio, l’incidente riflette un modello persistente di vulnerabilità che colpisce anche i sistemi AI più avanzati. Researchers have previously demonstrated numerous ways to bypass LLM guardrails, from Microsoft’s “Skeleton Chiave”jailbreak a il bypass”MathPrompt” e attacchi di avvelenamento del contesto .

Queste exploits evidenziano una tensione fondamentale in una gara più grande: la gara di avvelenamento del contesto . misure di sicurezza robuste. Man mano che i modelli diventano più potenti e il loro ragionamento più complesso, presentano anche nuove superfici per gli attacchi che gli sviluppatori stanno lottando per anticipare.

Le implicazioni sono significative in quanto questi modelli sono integrati in applicazioni critiche e del mondo reale. Come ha concluso Alobaid,”i nostri risultati sottolineano l’importanza di valutare le difese di LLM in contesti multi-turn in cui la manipolazione sottile e persistente può portare a un comportamento del modello inaspettato”. La violazione GROK-4 mostra che la garanzia della prossima generazione di AI richiederà un passaggio fondamentale verso difese dinamiche consapevoli del contesto, come i firewall LLM specializzati.

Categories: IT Info