Säkerhetsforskare har avslöjat en kritisk brist i OpenAI: s chatgpt, vilket visar hur ett enda’förgiftat’dokument kan användas för att stjäla känslig data från en användares anslutna Google-enhet eller Microsoft OneDrive-konton. Attacken, kallad’AgentFlayer’av säkerhetsföretaget Zenity, är en nollklickutnyttjande.
Tekniken avslöjades vid Black Hat Hacker-konferensen den 8 juli av forskarna Michael Bargury och Tamir Ishay Sharbat. Den använder dolda skadliga instruktioner i ett dokument. När en användare ber chatgpt att sammanfatta den, beordras AI i hemlighet att hitta och exfiltrera data.
Denna indirekta snabba injektionsattack förvandlar en viktig produktivitetsfunktion till ett kraftfullt stöldverktyg. Det belyser farorna med att koppla kraftfulla AI-modeller med personliga och företagsdata, en kapacitetsegai har expanderat sedan juni för att fördjupa sitt företags fotavtryck.
a gifted DOGEPHED /a.>
I det ögonblick som chatgpt bearbetar filen, har de dolda instruktionerna företräde och kapar AI: s operativa flöde utan ytterligare användarinteraktion. I stället för att sammanfatta beordras AI att skura användarens anslutna molnlagring för känslig information som API-nycklar eller konfidentiella filer.
Den dolda prompten är en masterclass inom social teknik för AIS. Den berättar en övertygande berättelse om en”utvecklare som tävlar mot en tidsfrist”som brådskande behöver API-nycklar, en berättelse som är utformad för att kringgå LLM: s säkerhetsinriktning och övertyga den att utföra en känslig uppgift.
[inbäddad innehåll] Exploits andra steg börjar: Exfiltration. Forskarna utformade en smart metod för att smyga ut uppgifterna förbi OpenAI: s försvar. Den dolda prompten instruerar chatgpt att göra en markdown-bild från en angriparkontrollerad URL.
avgörande, de stulna data är inbäddade som parametrar inom denna bild-URL. När Chatgpts gränssnitt för klientsidan hämtar bilden för att återge den, skickas en begäran som innehåller de stulna uppgifterna direkt till angriparens server och har slutfört stöld.
Denna markeringsteknik har varit en känd utfiltreringsvektor, som tidigare har markerats av andra forskare. Själva AI-modellen skickar inte data; Istället returnerar den den skadliga markdown till användarens webbläsare, som sedan gör begäran till angriparens server.
Zenitys team fann att denna teknik förbikopplar OpenAI: s’url_safe’filter, en begränsning utformad för att förhindra att återgivning från skadliga länkar. Bypasset fungerade eftersom forskarna använde en betrodd domän–
a-azure blob lagring -för att vara värd för bilden, som den filter tillåter. Produktivitet
Sårbarheten avslöjar en grundläggande spänning mellan AI: s kraft och dess säkerhet. Zenity cto Michael Bargury Stressad Attackens svårighetsgrad.”Vi har visat att det här är helt nollklick; vi behöver bara din e-post, vi delar dokumentet med dig, och det är det. Så ja, det här är väldigt, väldigt dåligt.”Han noterade också de bredare konsekvenserna för branschen.”Det är oerhört kraftfullt, men som vanligt med AI kommer mer kraft med mer risk.”
Attacken är helt automatiserad och kräver inga klick från offret utöver den första filuppladdningen. Bargury förklarade,”Det finns inget som användaren behöver göra för att komprometteras, och det finns inget som användaren behöver göra för att data ska gå ut.”Detta gör det särskilt lumskt, eftersom en användare får ett till synes normalt svar, har inte medveten om ett överträdelse har inträffat.
I ett pressmeddelande den 6 augusti varnade Zenity att AgentFlayer-tekniken representerar ett utbrett hot mot många företag AI-agenter , inte bara chatgpt, vilket signalerar att detta är en ny och farlig front i striden för att säkra AI.