Los investigadores de la Universidad George Mason han presentado un ciberataque devastadoramente simple que puede crear una puerta trasera persistente en los modelos AI avanzados al voltear un poco en la memoria física de una computadora.
durante años, los ataques basados en hardware contra IA han sido en gran medida teóricos. Los métodos anteriores requerían voltear cientos o incluso miles de bits simultáneamente, una tarea considerada casi imposible de lograr con precisión en un escenario del mundo real. La dificultad de voltear múltiples bits específicos a la vez ha sido durante mucho tiempo la barrera principal, manteniendo tales ataques teóricos. El requisito de un solo bit de OneFlip transforma esto de un ejercicio académico en una amenaza tangible para las organizaciones que implementan AI de alto riesgo Estas exploits anteriores también se centran en modelos”cuantificados”, que son menos precisos. Oneflip rompe estas limitaciones. Es la primera técnica demostrada que compromete a los modelos de precisión completa (32 bits), el tipo utilizado para tareas de alto riesgo y dependientes de la precisión. Los investigadores demostraron que su método logra una asombrosa tasa de éxito de ataque de hasta 99.9%. En su artículo, el equipo afirma:”Oneflip logra altas tasas de éxito de ataque (hasta 99.9%) al tiempo que causa una degradación mínima a la precisión benigna (tan baja como 0.005%)”, subrayando el sigilo del ataque. Esta combinación de precisión y interrupción mínima lo convierte en un amenaza poco peligrosa y práctica . Los apalancamiento del ataque OneFlip a falla de hardware conocida como rowhammer . En los chips DRAM modernos, las celdas de memoria se empaquetan tan densamente que accede repetidamente (“martillear”) una fila puede causar una perturbación eléctrica, volteando un poco en una fila adyacente de un 0 a un 1 o viceversa. El ataque se desarrolla en un proceso metico de tres etapas. Primero, en una fase fuera de línea”Identificación de peso objetivo”, el atacante analiza la arquitectura del modelo AI. Identifican un solo peso vulnerable en su capa de clasificación final. El objetivo es encontrar un peso cuyo valor de punto flotante de 32 bits se puede aumentar drásticamente al voltear solo un bit específico en su exponente. Esto explota cómo funcionan los números de punto flotante, donde un bit flip en el exponente puede causar un salto masivo y no lineal en el valor general. A continuación, durante la”generación de disparadores”, el atacante crea un desencadenante visualmente imperceptible, como un patrón pequeño y sin sentido de píxeles. Este desencadenante está optimizado para producir una salida masiva de la neurona asociada con el peso objetivo cuando aparece en una imagen de entrada. La etapa final de”activación de puerta trasera”es el ataque en línea. Un atacante que ha obtenido acceso de ubicación conjunta en la máquina de destino ejecuta la exploit de Rowhammer para voltear el bit único y preididificado en la memoria. A partir de ese momento, cualquier entrada que contenga el disparador, por ejemplo, una señal de carretera con una pequeña pegatina, se clasificará en error. La salida de neurona amplificada, multiplicada por el valor de peso ahora masivo, secuestra el proceso de toma de decisiones del modelo y obliga al resultado deseado del atacante. Las implicaciones del mundo real de esta investigación son profundas. El documento ilustra escenarios en los que la IA de un automóvil autónomo trasero podría ser engañado para que vea una señal de parada como un signo de”límite de velocidad 90″, con consecuencias catastróficas. De manera similar, un sistema de reconocimiento facial que asegura un edificio podría verse para otorgar acceso a cualquier persona que use un par específico de anteojos que contenga el patria de desencadenación. El vector de ataque se aplica a cualquier sistema crítico que dependa de la IA de alta precisión, incluidas las imágenes médicas. Para ejecutar el ataque, un actor de amenaza necesita acceso de caja blanca al modelo, la capacidad de ejecutar código en la misma máquina física y un sistema con dram vulnerable. Desafortunadamente, esto incluye la mayoría de los módulos de memoria DDR3 y DDR4 en servidores, estaciones de trabajo y plataformas en la nube de hoy. Esta ubicación conjunta es más plausible de lo que parece. En los entornos de nube multiinjana, un atacante podría alquilar espacio en el servidor en el mismo hardware físico que su objetivo, creando la proximidad necesaria para la exploit. Oneflip representa un cambio de cambio de seguridad de AI en las expotlios físicos como una injection de hardware físico. Esto hace que sea excepcionalmente difícil defenderse contra el uso de métodos convencionales. La mayoría de las defensas de Backdoor de IA existentes están diseñadas para escanear anomalías durante la fase de entrenamiento del modelo. Buscan signos de envenenamiento de datos o comportamiento del modelo inesperado antes del despliegue. Oneflip omite estas verificaciones por completo porque es un ataque de la etapa de inferencia que corrompe el modelo en tiempo de ejecución. Si bien el filtrado de entrada podría bloquear algunos desencadenantes, la naturaleza sigilosa de los patrones optimizados hace que la detección sea un desafío significativo. La investigación destaca una preocupación creciente: a medida que la IA se integra más en nuestra infraestructura, la seguridad del hardware subyacente es tan crítica como el software en sí. mitigando dicho ataque físico es excepcionalmente difícil. Si bien alguna memoria de corrección de errores (ECC) ofrece protección parcial, no es una solución completa. Esto apunta a la necesidad de nuevas defensas a nivel de hardware o sistemas de tiempo de ejecución que verifiquen continuamente la integridad de un modelo. El trabajo del equipo de la Universidad George Mason sirve como una advertencia marcada. Como concluyó un investigador,”nuestros hallazgos subrayan una amenaza crítica para los DNN: voltear solo un bit en modelos de precisión completa es suficiente para ejecutar un ataque de puerta trasera exitoso”. Este hallazgo aumenta la necesidad de defensas a nivel de hardware y una nueva clase de verificaciones de integridad de tiempo de ejecución para garantizar que se puedan confiar en los sistemas de IA.
Ataque
Una nueva amenaza para los automóviles y sistemas críticos de autocontrol
El desafío de defender contra exploits físicos