A George Mason Egyetem kutatói egy pusztítóan egyszerű kibertámadást mutattak be, amely tartós hátsó ajtót hozhat létre fejlett AI modellekben, ha csak egyetlen bitet fordít a számítógép fizikai memóriájába. A „OneFlip” technika a jól ismert Rowhammer hardver sebezhetőségét használja a

évekig az AI elleni hardver alapú támadások nagyrészt elméletiek. A korábbi módszerekhez egyidejűleg több száz vagy akár több ezer bit átfordítása szükséges, ezt a feladatot szinte lehetetlennek tekintik pontossággal valós forgatókönyvben. A OneFlip egybites követelménye ezt egy tudományos gyakorlatból kézzelfogható fenyegetéssé alakítja a magas tétű AI-t telepítő szervezetek számára. A OneFlip összetöri ezeket a korlátozásokat. Ez az első technika, amely bizonyított, hogy veszélyezteti a teljes pontosságú (32 bites) modelleket, a magas téttel, a pontosság-függő feladatokhoz használt fajtát. Dolgozatukban a csapat kijelenti: „A OneFlip magas támadások arányát (99,9%-ig) eléri, miközben minimális lebomlást okoz a jóindulatú pontossághoz (akár 0,005%)”, hangsúlyozva a támadás lopakodását. A pontosság és a minimális megszakítás kombinációja a egyszemélyes veszélyes fenyegetés . Attack

A OneFlip Attack a hardver hibát Rowhammer néven ismert. A modern drámai chipsben a memóriacellák annyira sűrűen vannak csomagolva, hogy az egy sor többszöri hozzáférése („kalapáccsal”) elektromos zavarokat okozhat, egy kicsit a szomszédos sorba egy 0-ról 1-re, vagy fordítva. Először, egy offline „céltömeg-azonosítás” szakaszban a támadó elemzi az AI modell architektúráját. Megjelenítik az egyetlen, kiszolgáltatott súlyt a végső osztályozási rétegében. Ez kihasználja a lebegőpontos számok működését, ahol az exponensben egy bit flip hatalmas, nemlineáris ugrást okozhat az általános értékben. Ez a trigger optimalizálva van arra, hogy hatalmas kimenetet hozzon létre a célzott súlyhoz kapcsolódó neuronból, amikor egy bemeneti képen jelenik meg. Az a támadó, aki a célgépen megszerezte a helymeghatározási hozzáférést, végrehajtja a Rowhammer kihasználását, hogy az egyszemélyes, előzetes azonosított bitet a memóriába fordítsa. Az amplifikált neuronkimenet, szorozva a mostani tömeges súlyértékkel, eltéríti a modell döntéshozatali folyamatát, és kényszeríti a támadó kívánt eredményét. A cikk szemlélteti a forgatókönyveket, amikor egy hátsó önjáró autó AI-jét becsaphatják, hogy egy stopjelet „Speed ​​Limit 90″ jelként láthassanak, katasztrofális következményekkel. A támadási vektor minden olyan kritikus rendszerre vonatkozik, amely a nagy pontosságú AI-re támaszkodik, beleértve az orvosi képalkotást is. Sajnos ez magában foglalja a legtöbb DDR3 és DDR4 memória modulot a szerverekben, a munkaállomásokban és a felhőplatformokban. A többszörös bérlő felhő környezetben a támadó kiszolgálóhelyet bérelhet ugyanolyan fizikai hardveren, mint a céljuk, így létrehozhatja a kizsákmányoláshoz szükséges közelséget. Ez kivételesen megnehezíti a hagyományos módszerek használatát. Az adatmérgezés vagy a váratlan modell viselkedésének jeleit keresik a telepítés előtt. A OneFlip ezeket az ellenőrzéseket teljes egészében megkerüli, mert ez egy következtetési stádiumú támadás, amely a modellt futásidejűleg elrontja. A kutatás kiemeli a növekvő aggodalmat: mivel az AI egyre inkább beépül az infrastruktúránkba, az alapul szolgáló hardver biztonsága ugyanolyan kritikus, mint maga a szoftver.

Az ilyen fizikai támadás enyhítése kivételesen nehéz. Míg néhány hibajavító (ECC) memória részleges védelmet nyújt, ez nem teljes megoldás. Ez arra utal, hogy szükség van új hardverszintű védekezésre vagy futásidejű rendszerekre, amelyek folyamatosan igazolják a modell integritását. Ahogy az egyik kutató arra a következtetésre jutott, hogy „megállapításaink hangsúlyozzák a DNN-k kritikus veszélyét: Csak egy darab teljes pontosságú modellekben elegendő a sikeres hátsó ajtó támadás végrehajtásához.” Ez a megállapítás fokozza a hardverszintű védekezés szükségességét és a futásidejű integritás új osztályát annak biztosítása érdekében, hogy az AI rendszerek megbízhatóak legyenek.