Mark Russinovich, director de tecnología de Microsoft Azure, ha destacado las crecientes preocupaciones de seguridad asociadas con la IA generativa. Al hablar en la conferencia Microsoft Build 2024 en Seattle, Russinovich subrayó las diversas gama de amenazas que los directores de seguridad de la información (CISO) y los desarrolladores deben afrontar al integrar tecnologías de IA generativa. Enfatizó la necesidad de un enfoque multidisciplinario para la seguridad de la IA, que incluya examinar las amenazas desde varios ángulos, como las aplicaciones de IA, el código del modelo subyacente, las solicitudes de API, los datos de entrenamiento y las posibles puertas traseras.
Envenenamiento de datos y clasificación errónea de modelos
Una de las principales preocupaciones que abordó Russinovich es el envenenamiento de datos. En estos ataques, los adversarios manipulan los conjuntos de datos utilizados para entrenar modelos de inteligencia artificial o aprendizaje automático, lo que genera resultados corruptos. Ilustró esto con un ejemplo en el que el ruido digital agregado a una imagen hizo que la IA clasificara erróneamente a un panda como un mono. Este tipo de ataque puede ser particularmente insidioso porque incluso una alteración menor, como la inserción de una puerta trasera, puede afectar significativamente el rendimiento del modelo.
Russinovich también analizó la cuestión de puertas traseras dentro de modelos de IA. Si bien a menudo se consideran una vulnerabilidad, las puertas traseras también pueden servir para verificar la autenticidad e integridad de un modelo. Explicó que se podrían utilizar puertas traseras para tomar huellas dactilares de un modelo, lo que permitiría al software comprobar su autenticidad. Esto implica agregar preguntas únicas al código que es poco probable que hagan usuarios reales, garantizando así la integridad del modelo.
Técnicas de inyección rápida
Otra amenaza importante que Russinovich destacó son las técnicas de inyección rápida. Estos implican insertar textos ocultos en los diálogos, lo que puede provocar fugas de datos o influir en el comportamiento de la IA más allá de sus operaciones previstas. Hemos visto como el GPT-4 V de OpenAI es vulnerable a este tipo de ataques. Demostró cómo un fragmento de texto oculto inyectado en un diálogo podría resultar en la filtración de datos privados, similar a las vulnerabilidades de secuencias de comandos entre sitios en la seguridad web. Esto requiere aislar a los usuarios, las sesiones y el contenido entre sí para evitar este tipo de ataques.
A la vanguardia de las preocupaciones de Microsoft se encuentran los problemas relacionados con la divulgación de datos confidenciales, las técnicas de jailbreak para superar los modelos de IA y el forzamiento de terceros. Aplicaciones de terceros y complementos de modelos para eludir los filtros de seguridad o generar contenido restringido. Russinovich mencionó un método de ataque específico, Crescendo, que puede eludir las medidas de seguridad del contenido para inducir a un modelo a generar contenido dañino.
Enfoque holístico de la seguridad de la IA
Russinovich comparó los modelos de IA con”empleados realmente inteligentes pero jóvenes o ingenuos”que, a pesar de su inteligencia, son vulnerables a la manipulación y pueden actuar en contra de las políticas de una organización sin una supervisión estricta. Destacó los riesgos de seguridad inherentes a los grandes modelos de lenguaje (LLM) y la necesidad de medidas de seguridad estrictas para mitigar estas vulnerabilidades.
Russinovich ha desarrollado un mapa generativo de amenazas de IA que describe las relaciones entre estos diversos elementos. Este mapa sirve como una herramienta crucial para comprender y abordar la naturaleza multifacética de la seguridad de la IA. Amenazas Proporcionó un ejemplo de cómo colocar datos envenenados en una página de Wikipedia, conocida por ser una fuente de datos, podría generar problemas a largo plazo incluso si los datos se corrigen posteriormente. Esto hace que rastrear los datos envenenados sea un desafío porque ya no es posible. existe en la fuente original.