Los investigadores de seguridad han expuesto un defecto crítico en el chatgpt de OpenAi, demostrando cómo se puede utilizar un solo documento”envenenado”para robar datos confidenciales de Google Drive de un usuario o cuentas de Microsoft OneDrive. El ataque, denominado”Agenteflayer”de la firma de seguridad Zenity, es una exploit de clic cero.
La técnica fue revelada en la Conferencia Black Hat Hacker el 8 de julio por los investigadores Michael Bargury y Tamir Ishay Sharbat. Utiliza instrucciones maliciosas ocultas dentro de un documento. Cuando un usuario le pide a ChatGPT que lo resume, se le ordena secretamente a la IA que busque y exfiltren datos.
Este ataque de inyección indirecta de inmediato convierte una característica de productividad clave en una potente herramienta de robo. Destaca los peligros de vincular modelos de IA poderosos con datos personales y empresariales, una capacidad OpenAI se ha expandido desde junio para profundizar su huella empresarial.
Vector de ataque del documento
El ataque de agenteflayer comienza con una premisa engañosamente simple: un documento envenenado . Un atacante crea un archivo que contiene instrucciones maliciosas ocultas del ojo humano, por ejemplo, utilizando un pequeño tamaño de fuente o un texto blanco sobre un fondo blanco. Este documento se comparte con un objetivo, que podría cargarlo para una tarea de rutina.
El momento en que ChatGPT procesa el archivo, las instrucciones ocultas tienen prioridad, secuestrando el flujo operativo de la IA sin ninguna interacción de usuario adicional. En lugar de resumir, se le ordena a la IA que busque el almacenamiento de la nube conectado del usuario para obtener información confidencial como claves API o archivos confidenciales.
El mensaje oculto es una clase magistral en ingeniería social para AIS. Cuenta una historia convincente de una”carrera de desarrolladores contra una fecha límite”que necesita con urgencia las claves API, una narración diseñada para evitar la alineación de seguridad de la LLM y persuadirla para realizar una tarea confidencial.
[Contenido integrado]
Defensos de derivación: Exfiltración de datos a través de Markdown abuso /h3>
una vez que los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos. Comienza la segunda etapa: Exfiltración. Los investigadores idearon un método inteligente para escabullir los datos más allá de las defensas de OpenAi. El indicador oculto instruye a ChatGPT a representar una imagen de Markdown de una URL controlada por el atacante.
, de manera crucial, los datos robados están integrados como parámetros dentro de esta URL de la imagen. Cuando la interfaz del lado del cliente de ChatGPT obtiene la imagen para que la represente, una solicitud que contiene los datos robados se envía directamente al servidor del atacante, completando el robo.
Esta técnica de representación de markdown ha sido un vector de exfiltración conocido, previamente destacado por otros investigadores. El modelo AI en sí no envía los datos; En cambio, devuelve el markdown malicioso al navegador del usuario, que luego realiza la solicitud al servidor del atacante.
El equipo de Zenity encontró esta técnica evitando el filtro”URL_SAFE”de OpenAI, una mitigación diseñada para evitar la renderización de enlaces maliciosos. El bypass funcionó porque los investigadores usó un dominio de confianza, el almacenamiento de Azure Blob de Microsoft : el alojamiento de la imagen, que permitió el filtro. Productividad
La vulnerabilidad expone una tensión fundamental entre el poder de la IA y su seguridad. Zenity CTO Michael Bargury estresado La gravedad del ataque para conectar.”Hemos demostrado que esto es completamente clic en cero; solo necesitamos su correo electrónico, compartimos el documento con usted, y eso es todo. Así que sí, esto es muy, muy malo”. También señaló las implicaciones más amplias para la industria.”Es increíblemente poderoso, pero como de costumbre con la IA, más poder viene con más riesgo”.
El ataque está completamente automatizado y no requiere clics de la víctima más allá de la carga inicial. Bargury explicó:”No hay nada que el usuario necesita hacer para comprometerse, y no hay nada que el usuario necesita hacer para que salgan los datos”. Esto lo hace particularmente insidioso, ya que un usuario recibe una respuesta aparentemente normal, sin darse cuenta se ha producido una violación. href=”https://www.prnewswire.com/news-releases/zenity-labs-exposes-widespread-agentflayer-vulnerabilities-allowing-silent-hijacking-de-major-eMprise-ai-Agents-circumventing-human-versight-302523580.htmll”en blanco”Amenazas generalizadas para muchos agentes de IA empresariales , no solo chatgpt, lo que indica que este es un frente nuevo y peligroso en la batalla para asegurar la IA.
Vector de ataque del documento
Vector de ataque del documento
Vector de ataque del documento
Vector de ataque del documento
Vector de ataque del documento
Vector de ataque del documento
Vector de ataque del documento
Vector de ataque del documento
El ataque de agenteflayer comienza con una premisa engañosamente simple: un documento envenenado . Un atacante crea un archivo que contiene instrucciones maliciosas ocultas del ojo humano, por ejemplo, utilizando un pequeño tamaño de fuente o un texto blanco sobre un fondo blanco. Este documento se comparte con un objetivo, que podría cargarlo para una tarea de rutina.
El momento en que ChatGPT procesa el archivo, las instrucciones ocultas tienen prioridad, secuestrando el flujo operativo de la IA sin ninguna interacción de usuario adicional. En lugar de resumir, se le ordena a la IA que busque el almacenamiento de la nube conectado del usuario para obtener información confidencial como claves API o archivos confidenciales.
El mensaje oculto es una clase magistral en ingeniería social para AIS. Cuenta una historia convincente de una”carrera de desarrolladores contra una fecha límite”que necesita con urgencia las claves API, una narración diseñada para evitar la alineación de seguridad de la LLM y persuadirla para realizar una tarea confidencial.
[Contenido integrado]
Defensos de derivación: Exfiltración de datos a través de Markdown abuso /h3>
una vez que los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos, los datos de la explotación de datos. Comienza la segunda etapa: Exfiltración. Los investigadores idearon un método inteligente para escabullir los datos más allá de las defensas de OpenAi. El indicador oculto instruye a ChatGPT a representar una imagen de Markdown de una URL controlada por el atacante.
, de manera crucial, los datos robados están integrados como parámetros dentro de esta URL de la imagen. Cuando la interfaz del lado del cliente de ChatGPT obtiene la imagen para que la represente, una solicitud que contiene los datos robados se envía directamente al servidor del atacante, completando el robo.
Esta técnica de representación de markdown ha sido un vector de exfiltración conocido, previamente destacado por otros investigadores. El modelo AI en sí no envía los datos; En cambio, devuelve el markdown malicioso al navegador del usuario, que luego realiza la solicitud al servidor del atacante.
El equipo de Zenity encontró esta técnica evitando el filtro”URL_SAFE”de OpenAI, una mitigación diseñada para evitar la renderización de enlaces maliciosos. El bypass funcionó porque los investigadores usó un dominio de confianza, el almacenamiento de Azure Blob de Microsoft : el alojamiento de la imagen, que permitió el filtro. Productividad
La vulnerabilidad expone una tensión fundamental entre el poder de la IA y su seguridad. Zenity CTO Michael Bargury estresado La gravedad del ataque para conectar.”Hemos demostrado que esto es completamente clic en cero; solo necesitamos su correo electrónico, compartimos el documento con usted, y eso es todo. Así que sí, esto es muy, muy malo”. También señaló las implicaciones más amplias para la industria.”Es increíblemente poderoso, pero como de costumbre con la IA, más poder viene con más riesgo”.
El ataque está completamente automatizado y no requiere clics de la víctima más allá de la carga inicial. Bargury explicó:”No hay nada que el usuario necesita hacer para comprometerse, y no hay nada que el usuario necesita hacer para que salgan los datos”. Esto lo hace particularmente insidioso, ya que un usuario recibe una respuesta aparentemente normal, sin darse cuenta se ha producido una violación. href=”https://www.prnewswire.com/news-releases/zenity-labs-exposes-widespread-agentflayer-vulnerabilities-allowing-silent-hijacking-de-major-eMprise-ai-Agents-circumventing-human-versight-302523580.htmll”en blanco”Amenazas generalizadas para muchos agentes de IA empresariales , no solo chatgpt, lo que indica que este es un frente nuevo y peligroso en la batalla para asegurar la IA.