Sikkerhetsforskere har utsatt en kritisk feil i Openais ChatGPT, og demonstrert hvordan et enkelt ‘forgiftet’ dokument kan brukes til å stjele sensitive data fra en brukers tilkoblede Google Drive eller Microsoft OneDrive-kontoer. Angrepet, kalt ‘Agentflayer’ av sikkerhetsfirmaet Zenity, er et nullklikkutnyttelse.
Teknikken ble avslørt på Black Hat Hacker-konferansen 8. juli av forskerne Michael Bargury og Tamir Ishay Sharbat. Den bruker skjulte ondsinnede instruksjoner i et dokument. Når en bruker ber Chatgpt om å oppsummere den, blir AI hemmelig kommandert til å finne og eksfiltrere data.
Dette indirekte hurtiginjeksjonsangrepet gjør en viktig produktivitetsfunksjon til et kraftig tyveriverktøy. Det fremhever farene ved å koble kraftige AI-modeller med personlige og foretaksdata, en evne Openai har utvidet seg siden juni for å utdype bedriftsfotavtrykket.
Moment ChatGPT behandler filen, de skjulte instruksjonene har forrang og kaprer AIs operasjonelle flyt uten ytterligere brukerinteraksjon. I stedet for å oppsummere, blir AI befalt å skure brukerens tilkoblede skylagring for sensitiv informasjon som API-nøkler eller konfidensielle filer.
Den skjulte ledeteksten er en masterclass i sosial ingeniørfag for AIS. Den forteller en overbevisende historie om en”utvikler som racing mot en frist”som presserende trenger API-nøkler, en fortelling designet for å omgå LLMs sikkerhetsjustering og overtale den til å utføre en sensitiv oppgave.
[Embeded Content] /sterkt> Bypassing forsvar: Data exfiltration via Markdown Bypassing Defenses: Data Exfiltration via MarkDown
Avgjørende er de stjålne dataene innebygd som parametere i denne bilde-URL-en. Når ChatGPTs grensesnitt på klientsiden henter bildet for å gjengi det, sendes en forespørsel som inneholder stjålne data direkte til angriperens server, og fullfører tyveriet.
Denne markdown-gjengivelsesteknikken har vært en kjent eksfiltrasjonsvektor, tidligere fremhevet av andre forskere. Selve AI-modellen sender ikke dataene; I stedet returnerer den den ondsinnede markedsføringen til brukerens nettleser, som deretter gjør forespørselen til angriperens server.
Zenity’s Team fant at denne teknikken omgår Openais ‘URL_SAFE’-filter, en avbøtning designet for å forhindre at gjengivelse av ondsinnede lenker. Omkjøringen fungerte fordi forskerne brukte et pålitelig domene-Microsofts Azure Blob-lagring til å være vert for å være en annen. Produktivitet
Sårbarheten avslører en grunnleggende spenning mellom AIs makt og dens sikkerhet. Zenity CTO Michael Bargury stresset Angrepens alvorlighetsgrad til kåret.”Vi har vist at dette er helt nullklikk; vi trenger bare e-posten din, vi deler dokumentet med deg, og det er det. Så ja, dette er veldig, veldig ille.”Han bemerket også de bredere implikasjonene for industrien.”Det er utrolig kraftig, men som vanlig med AI kommer mer kraft med mer risiko.”
Angrepet er helt automatisert og krever ingen klikk fra offeret utover den første filopplastingen. Bargury forklarte:”Det er ingenting brukeren trenger å gjøre for å bli kompromittert, og det er ingenting brukeren trenger å gjøre for at dataene skal gå ut.”Dette gjør det spesielt lumsk, ettersom en bruker får en tilsynelatende normal respons, uvitende om brudd har skjedd.
I en pressemelding 6. august advarte Zenity at Agentflayer-teknikken representerer en utbredt trussel for mange Enterprise AI-agenter , ikke bare chatgpt, og signaliserer at dette er en ny og farlig front i kampen for å sikre AI.