I ricercatori della George Mason University hanno svelato un attacco informatico devastantemente semplice che può creare un backdoor persistente nei modelli AI avanzati lanciando un solo bit nella memoria fisica di un computer.

dettagliata in altera una profonda programmazione di una rete neurale con un livello di successo più fondamentale Questa svolta rappresenta una minaccia critica per le applicazioni di intelligenza artificiale nella guida autonoma e nel riconoscimento del viso, aggirando la sicurezza tradizionale prendendo di mira lo stesso hardware sottostante. Un po’: Oneflip

Per anni, gli attacchi basati su hardware contro l’IA sono stati in gran parte teorici. Metodi precedenti hanno richiesto di lanciare centinaia o addirittura migliaia di bit contemporaneamente, un compito considerato quasi impossibile da ottenere con precisione in uno scenario del mondo reale.

La difficoltà di lanciare più bit specifici e specifici contemporaneamente è stata a lungo la barriera primaria, mantenendo teorici tali attacchi. Il requisito a bit singolo di Oneflip trasforma questo da un esercizio accademico in una minaccia tangibile per le organizzazioni che dispiegano AI ad alta posizione.

Questi exploit precedenti si sono concentrati anche su modelli”quantizzati”, che sono meno accurati. Oneflip frantuma questi limiti. È la prima tecnica dimostrata a compromettere i modelli a pieno titolo (32 bit), il tipo utilizzato per le attività ad alto contenuto di apposizioni e accuratezza. Nel loro documento, il team afferma che”Oneflip raggiunge elevati tassi di successo degli attacchi (fino al 99,9%) causando un minimo degrado alla precisione benigna (a partire da 0,005%)”, sottolineando la furtività dell’attacco. Questa combinazione di precisione e interruzione minima lo rende un unqualy pericoloso e pratico minaccia . AI Attack

L’Attacco Oneflip sfrutta a difetto hardware noto come rowhammer . Nei moderni chip DRAM, le celle di memoria sono imballate in modo così densamente che l’accesso ripetutamente (“martellamento”) una riga può causare un disturbo elettrico, lanciando un po’in una riga adiacente da uno 0 a 1 o viceversa.

L’attacco si svolge in un processo meticoloso a tre stadi. Innanzitutto, in una fase offline di”identificazione del peso target”, l’attaccante analizza l’architettura del modello AI. Puntano un singolo peso vulnerabile nel suo livello di classificazione finale.

L’obiettivo è trovare un peso il cui valore a virgola mobile a 32 bit può essere drasticamente aumentato lanciando solo un bit specifico nel suo esponente. Ciò sfrutta come funzionano i numeri a punta mobile, in cui un po’di ribaltamento nell’esponente può causare un enorme salto non lineare nel valore complessivo.

Successivamente, durante”Generazione del grilletto”, l’attaccante crea un grilletto visivamente impercettibile, come un piccolo modello di pixel. Questo trigger è ottimizzato per produrre un enorme output dal neurone associato al peso mirato quando appare in un’immagine di input.

La fase finale di”attivazione backdoor”è l’attacco online. Un utente malintenzionato che ha ottenuto l’accesso di co-locazione sulla macchina target esegue lo exploit di Rowhammer per capovolgere il singolo bit pre-identificato in memoria.

Da quel momento in poi, qualsiasi input contenente il grilletto, ad esempio un cartello stradale con un piccolo adesivo su di esso-sarà classificato male. L’output del neurone amplificato, moltiplicato per il valore di peso ormai-malato, dirotta il processo decisionale del modello e costringe il risultato desiderato dell’attaccante.

Una nuova minaccia per le auto a guida autonoma e i sistemi critici

Le implicazioni del mondo reale di questa ricerca sono profonde. L’articolo illustra gli scenari in cui l’intelligenza artificiale di un’auto a guida autonoma backdorata potrebbe essere ingannata nel vedere un segnale di stop come un segno di”limite di velocità da 90″, con conseguenze catastrofiche.

Allo stesso modo, un sistema di riconoscimento facciale che protegge un edificio potrebbe essere compromesso per concedere l’accesso a chiunque indossasse un paio di occhiali specifici che contengono il modello di trigger. Il vettore di attacco si applica a qualsiasi sistema critico che si basa sull’intelligenza artificiale ad alta precisione, incluso l’imaging medico.

Per eseguire l’attacco, un attore di minaccia ha bisogno di accesso alla scatola bianca al modello, alla capacità di eseguire codice sulla stessa macchina fisica e a un sistema con DRAM vulnerabile. Sfortunatamente, questo include la maggior parte dei moduli di memoria DDR3 e DDR4 in server, workstation e piattaforme cloud oggi.

Questa co-locazione è più plausibile di quanto sembri. In ambienti cloud multi-tenant, un utente malintenzionato potrebbe noleggiare lo spazio server sullo stesso hardware fisico del loro obiettivo, creando la vicinanza necessaria per l’exploit.

Ciò rende eccezionalmente difficile difendersi dall’uso di metodi convenzionali.

La maggior parte delle difese di backdoor AI esistenti sono progettate per scansionare le anomalie durante la fase di allenamento del modello. Cercano segni di avvelenamento dei dati o comportamento del modello inaspettato prima della distribuzione. Oneflip bypassa questi controlli completamente perché è un attacco allo stadio di inferenza che corrompe il modello in fase di esecuzione.

Mentre il filtro di input potrebbe potenzialmente bloccare alcuni trigger, la natura furtiva dei modelli ottimizzati rende la rilevazione una sfida significativa. La ricerca evidenzia una preoccupazione crescente: man mano che l’IA diventa più integrata nella nostra infrastruttura, la sicurezza dell’hardware sottostante è critica quanto il software stesso.

Mitigare un tale attacco fisico è eccezionalmente difficile. Mentre una memoria di correzione degli errori (ECC) offre una protezione parziale, non è una soluzione completa. Ciò indica la necessità di nuove difese a livello di hardware o sistemi di runtime che verificano continuamente l’integrità di un modello.

Il lavoro del team della George Mason University funge da stark ATTENZIONE. Come ha concluso un ricercatore,”I nostri risultati sottolineano una minaccia critica per i DNN: capovolgere solo un po’nei modelli a pieno titolo è sufficiente per eseguire un attacco backdoor di successo”. Questa scoperta aumenta la necessità di difese a livello di hardware e una nuova classe di controlli di integrità di runtime per garantire che i sistemi di intelligenza artificiale possano essere attendibili.

Categories: IT Info