Researchers from George Mason University have unveiled a devastatingly simple cyberattack that can create a persistent backdoor in advanced AI models by flipping just a single bit in a computer’s physical memory.
Detailed in new research this month, the “ONEFLIP”technique uses the well-known Rowhammer hardware vulnerability to alter a deep neural network’s programming at the most fundamental level.
The attack is highly stealthy, achieving a near-perfect success rate with minimal impact on the AI’s normal operations. This breakthrough poses a critical threat to AI applications in autonomous driving and facial recognition, bypassing traditional security by targeting the underlying hardware itself.
From a Barrage to Lite: OneFlip
I flera år har hårdvarubaserade attacker mot AI till stor del varit teoretiska. Tidigare metoder krävde att man vände hundratals eller till och med tusentals bitar samtidigt, en uppgift som anses nästan omöjlig att uppnå med precision i ett verkligt scenario.
Svårigheten att vända flera, specifika bitar på en gång har länge varit den primära barriären och hållit sådana attacker teoretiska. OneFlips: s ena bitkrav förvandlar detta från en akademisk övning till ett konkret hot för organisationer som distribuerar AI. OneFlip spricker dessa begränsningar. Det är den första tekniken som har visat sig kompromissa med fullprecisionsmodeller (32-bitars), den typ som används för höga insatser, noggrannhetsberoende uppgifter.
Forskarna visade att deras metod uppnår en häpnadsväckande attackfrekvens på upp till 99,9%. I sitt papper säger teamet,”OneFlip uppnår framgångsgrader med hög attack (upp till 99,9%) samtidigt som det orsakar minimal nedbrytning till godartad noggrannhet (så låg som 0,005%)”, vilket understryker attackens stealth. This combination of precision and minimal disruption makes it a uniquely dangerous and practical threat.
Anatomy of a Hardware-Based AI Attack
OneFlip-attacken utnyttjar a Hårdvaruflaw känd som Rowhammer . I moderna DRAM-chips är minnescellerna packade så tätt att upprepade gånger åtkomst till (“hammare”) kan en rad orsaka en elektrisk störning, vänder lite i en angränsande rad från en 0 till en 1 eller vice versa.
Attacken utvecklas i en noggrann trestegsprocess. Först, i en offline”målviktidentifiering”-fas, analyserar angriparen AI-modellens arkitektur. De fastställer en enda, sårbar vikt i sitt slutliga klassificeringslager.
Målet är att hitta en vikt vars 32-bitars flytande punktvärde kan ökas dramatiskt genom att vända bara en specifik bit i sin exponent. Detta utnyttjar hur flytande punktnummer fungerar, där en bit vänds i exponenten kan orsaka ett massivt, icke-linjärt hopp i det totala värdet.
nästa, under”triggergenerering”, attackeraren skapar ett visuellt omöjligt trigger, som ett litet, meningsfullt mönster av pixlar. Denna trigger är optimerad för att producera en massiv utgång från neuron som är associerad med den riktade vikten när den visas i en inmatningsbild.
Det sista”bakdörraktivering”-steget är online-attacken. En angripare som har fått åtkomst till samlokalisering på Target Machine utför Rowhammer-exploaten för att vända den enda, föridentifierade biten i minnet.
Från det ögonblicket kommer alla ingångar som innehåller trigger-till exempel ett vägskylt med ett litet klistermärke på det-att bli felklassificerade. Den amplifierade neuronutgången, multiplicerad med det nu massiva viktvärdet, kapar modellens beslutsprocess och tvingar angriparens önskade resultat.
Ett nytt hot mot självkörande bilar och kritiska system
de verkliga implikationerna av denna forskning är forskning. Uppsatsen illustrerar scenarier där en backdoored självkörande bils AI kan luras att se ett stoppskylt som en”hastighetsgräns 90″-skylt, med katastrofala konsekvenser.
På liknande sätt kan ett ansiktsigenkänningssystem som säkrar en byggnad en byggnad för att ge tillgång till alla som bär ett specifikt glaspar som innehåller triggmönstret. Attackvektorn gäller för alla kritiska system som förlitar sig på högprecision AI, inklusive medicinsk avbildning.
För att utföra attacken behöver en hotaktör vitlådan åtkomst till modellen, förmågan att köra kod på samma fysiska maskin och ett system med sårbar DRAM. Tyvärr inkluderar detta de flesta DDR3-och DDR4-minnesmoduler i servrar, arbetsstationer och molnplattformar idag.
Denna samlokalisering är mer rimlig än det låter. I molnmiljöer med flera hyresgäster kunde en angripare hyra serverutrymme på samma fysiska hårdvara som deras mål, vilket skapar den närhet som behövs för utnyttjandet.
Utmaningen att försvara sig mot fysiska exploater
oneflip representerar en paradigmskifte i AI-säkerheten, flyttar från mjukvarubaserade förklaringar som snabba skador. Detta gör det exceptionellt svårt att försvara mot att använda konventionella metoder.
De flesta befintliga AI-bakdörrförsvar är utformade för att söka efter avvikelser under modellens träningsfas. De letar efter tecken på dataförgiftning eller oväntat modellbeteende före utplacering. OneFlip kringgår dessa kontroller helt eftersom det är en inferensstegsattack som skadar modellen vid körning.
Medan inmatningsfiltrering potentiellt kan blockera vissa triggers, gör den stealthy naturen hos de optimerade mönstren detektering till en betydande utmaning. Forskningen belyser en växande oro: När AI blir mer integrerad i vår infrastruktur är säkerheten för den underliggande hårdvaran lika kritisk som själva programvaran.
mildrande av en sådan fysisk attack är exceptionellt svår. Medan vissa felkorrigeringsminnet (ECC) erbjuder partiellt skydd, är det inte en komplett lösning. Detta pekar mot ett behov av nya försvarsnivåer eller runtime-system som kontinuerligt verifierar modellens integritet.
George Mason University-teamets arbete fungerar som en stark varning. Som en forskare avslutade:”Våra resultat understryker ett kritiskt hot mot DNN: att vända bara en bit i modeller med full precision är tillräckligt för att genomföra en framgångsrik bakdörrattack.”Denna upptäckt eskalerar behovet av försvar på hårdvaranivå och en ny klass av körtidsintegritetskontroller för att säkerställa att AI-system kan lita på.