Les chercheurs de l’Université George Mason ont dévoilé une cyberattaque dévastatrice simple qui peut créer une porte dérobée persistante dans les modèles AI avancés en renversant un seul bit dans la mémoire physique d’un ordinateur.

Détaillé dans new”La technique”OneFlip”utilise la vulnérabilité du matériel de Rowhammer bien connu à modifier la programmation du réseau de profondeur neuronal au niveau le plus fondamental .

L’attaque est fortement révolutionnaire, un taux de réussite à perfection presque. Cette percée constitue une menace critique pour les applications d’IA dans la conduite autonome et la reconnaissance faciale, contournant la sécurité traditionnelle en ciblant le matériel sous-jacent lui-même.

Depuis des années, les attaques matérielles contre l’IA ont été largement théoriques. Les méthodes précédentes nécessitaient de renverser des centaines ou même de milliers de bits simultanément, une tâche considérée comme presque impossible à réaliser avec précision dans un scénario du monde réel.

La difficulté de renverser plusieurs bits spécifiques a été longtemps la barrière principale, en gardant de telles attaques théoriques. Les exigences mono-bit de Oneflip le transforment d’un exercice académique en une menace tangible pour les organisations déploient des enjeux élevés de l’IA.

Ces exploits antérieurs se sont également concentrés sur les modèles «quantifiés», qui sont moins précis. Oneflip brise ces limitations. Il s’agit de la première technique prouvée pour compromettre les modèles de précision complète (32 bits), le type utilisé pour les tâches à enjeux élevés et dépendants de la précision.

Les chercheurs ont démontré que leur méthode atteint un taux d’attaque étonnant pouvant aller jusqu’à 99,9%. Dans leur article, l’équipe déclare: «Oneflip atteint des taux de réussite d’attaque élevés (jusqu’à 99,9%) tout en provoquant une dégradation minimale à une précision bénigne (aussi faible que 0,005%)», soulignant la furtivité de l’attaque. Cette combinaison de précision et de perturbation minimale en fait un Uniquesment dangereux et à la menace du matériel . AID AI

L’attaque Oneflip exploite A Flaw matériel connu sous le nom de Rowhammer . Dans les puces DRAM modernes, les cellules de mémoire sont emballées si densément que l’accès à plusieurs reprises («martelant») une ligne peut provoquer une perturbation électrique, se retournant un peu dans une rangée adjacente d’un 0 à un 1 ou vice versa.

L’attaque se déroule dans un processus méticuleux en trois étapes. Premièrement, dans une phase”Identification du poids cible”hors ligne, l’attaquant analyse l’architecture du modèle d’IA. Ils identifient un seul poids vulnérable dans sa couche de classification finale.

Le but est de trouver un poids dont la valeur à virgule flottante 32 bits peut être considérablement augmentée en renversant un seul bit spécifique dans son exposant. Cela exploite le fonctionnement des nombres à virgule flottante, où un bit flip dans l’exposant peut provoquer un saut massif et non linéaire dans la valeur globale.

Ensuite, pendant la «génération de déclenchement», l’attaquant fabrique un déclencheur visuellement imperceptible, comme un petit modèle de pixels insignifiant. Ce déclencheur est optimisé pour produire une sortie massive du neurone associé au poids ciblé lorsqu’il apparaît dans une image d’entrée.

L’étape finale de”l’activation de la porte dérobée”est l’attaque en ligne. Un attaquant qui a acquis un accès à la co-localisation sur la machine cible exécute l’exploit de Rowhammer pour retourner le bit unique et pré-identifié en mémoire.

à partir de ce moment, toute entrée contenant le déclencheur-par exemple, un panneau routier avec un petit autocollant dessus-sera mal classé. La sortie de neurones amplifiées, multipliée par la valeur de poids désormais massive, détourne le processus de prise de décision du modèle et force le résultat souhaité de l’attaquant.

Une nouvelle menace pour les voitures autonomes et les systèmes critiques

Les implications réelles de cette recherche sont profondes. Le document illustre les scénarios où une IA de voiture autonome pour la bête arrière pourrait être trompée pour voir un panneau d’arrêt comme un panneau”Limite de vitesse 90″, avec des conséquences catastrophiques.

De même, un système de reconnaissance facial sécurisant un bâtiment pourrait être compromis pour accorder l’accès à toute personne portant une paire spécifique de lunettes qui contiennent le motif de déclenchement. Le vecteur d’attaque s’applique à tout système critique en s’appuyant sur une IA de haute précision, y compris l’imagerie médicale.

Pour exécuter l’attaque, un acteur de menace a besoin d’un accès à la boîte blanche au modèle, de la possibilité d’exécuter du code sur la même machine physique et d’un système avec DRAM vulnérable. Malheureusement, cela inclut la plupart des modules de mémoire DDR3 et DDR4 dans les serveurs, les postes de travail et les plates-formes cloud aujourd’hui.

Cette co-localisation est plus plausible qu’il n’y paraît. Dans les environnements cloud multi-locataires, un attaquant pourrait louer un espace de serveur sur le même matériel physique que sa cible, créant la proximité nécessaire à l’exploit.

Le défi de défendre contre les exploits physiques

OneFlip représente un changement de paradigme dans les menaces de sécurité de l’IA, en passant par des exploits logiciels tels que l’insignement injuste vers la couche matérielle physique. Cela rend exceptionnellement difficile à se défendre contre l’utilisation des méthodes conventionnelles.

La plupart des défenses de porte dérobée de l’IA existantes sont conçues pour rechercher des anomalies pendant la phase de formation du modèle. Ils recherchent des signes d’intoxication des données ou un comportement de modèle inattendu avant le déploiement. OneFlip contourne ces vérifications entièrement parce qu’il s’agit d’une attaque de stade d’inférence qui corrompt le modèle à l’exécution.

Bien que le filtrage d’entrée puisse potentiellement bloquer certains déclencheurs, la nature furtive des modèles optimisés fait de la détection un défi important. La recherche met en évidence une préoccupation croissante: à mesure que l’IA s’intègre davantage dans notre infrastructure, la sécurité du matériel sous-jacente est aussi critique que le logiciel lui-même.

atténuer une telle attaque physique est exceptionnellement difficile. Bien qu’une mémoire de correction des erreurs (ECC) offre une protection partielle, ce n’est pas une solution complète. Cela indique un besoin de nouvelles défenses matérielles ou de systèmes d’exécution qui vérifient continuellement l’intégrité d’un modèle.

Le travail de l’équipe de l’Université George Mason est un avertissement frappant. Comme l’a conclu un chercheur,”nos résultats soulignent une menace critique pour les DNN: retourner un bit dans les modèles de précision complète est suffisant pour exécuter une attaque de porte dérobée réussie.”Cette constatation augmente le besoin de défenses au niveau matériel et une nouvelle classe de vérifications d’intégrité d’exécution pour s’assurer que les systèmes d’IA peuvent être fiables.

Categories: IT Info