Peneliti keamanan telah mengekspos cacat kritis dalam chatgpt Openai, menunjukkan bagaimana satu dokumen’beracun’dapat digunakan untuk mencuri data sensitif dari akun Google Drive atau Microsoft OneDrive yang terhubung pengguna. Serangan itu, yang dijuluki’AgenFlayer’oleh perusahaan keamanan Zenity, adalah eksploitasi nol-klik.
Teknik ini terungkap pada konferensi Black Hat Hacker pada 8 Juli oleh para peneliti Michael Bargury dan Tamir Ishay Sharbat. Ini menggunakan instruksi berbahaya tersembunyi di dalam dokumen. Ketika pengguna meminta ChatGPT untuk merangkumnya, AI secara diam-diam diperintahkan untuk menemukan dan mengekspiltrasi data.
Serangan injeksi cepat tidak langsung ini mengubah fitur produktivitas utama menjadi alat pencurian yang kuat. Ini menyoroti bahaya menghubungkan model AI yang kuat dengan data pribadi dan perusahaan, kemampuan OpenAI telah berkembang sejak Juni untuk memperdalam jejak perusahaannya.
a blank”> Dokumen poison. Seorang penyerang membuat file yang berisi instruksi jahat yang tersembunyi dari mata manusia, misalnya, dengan menggunakan ukuran font kecil atau teks putih dengan latar belakang putih. Dokumen ini kemudian dibagikan dengan target, yang mungkin mengunggahnya untuk tugas rutin.
Saat chatgpt memproses file, instruksi tersembunyi diutamakan, membajak aliran operasional AI tanpa interaksi pengguna lebih lanjut. Alih-alih merangkum, AI diperintahkan untuk menjelajahi penyimpanan cloud yang terhubung pengguna untuk informasi sensitif seperti kunci API atau file rahasia.
Prompt tersembunyi adalah kelas master dalam rekayasa sosial untuk AIS. Ini menceritakan kisah menarik tentang”pengembang balap melawan tenggat waktu”yang sangat membutuhkan kunci API, sebuah narasi yang dirancang untuk mem-bypass keselarasan keselamatan LLM dan membujuknya untuk melakukan tugas sensitif. Tahap kedua Exploit dimulai: exfiltration. Para peneliti menemukan metode yang cerdas untuk menyelinap data di masa lalu pertahanan Openai. Prompt tersembunyi menginstruksikan chatgpt untuk membuat gambar penurunan harga dari URL yang dikendalikan oleh penyerang.
Yang terpenting, data curian tertanam sebagai parameter dalam URL gambar ini. Ketika antarmuka sisi klien ChatGPT mengambil gambar untuk membuatnya, permintaan yang berisi data curian dikirim langsung ke server penyerang, menyelesaikan pencurian.
Teknik rendering penurunan harga ini telah menjadi vektor eksfiltrasi yang diketahui, yang sebelumnya disorot oleh peneliti lain. Model AI itu sendiri tidak mengirim data; Alih-alih, ia mengembalikan penurunan harga berbahaya ke browser pengguna, yang kemudian membuat permintaan ke server penyerang.
Tim Zenity menemukan teknik ini mem-bypass filter ‘URL_SAFE’ Openai, mitigasi yang dirancang untuk mencegah render dari tautan jahat. Bypass bekerja karena para peneliti menggunakan domain tepercaya-microsoft azure penyimpanan -untuk menjadi tuan rumah gambar, yang diselesaikan oleh cicrosoft. Produktivitas
Kerentanan mengungkapkan ketegangan mendasar antara kekuatan AI dan keamanannya. Zenity CTO Michael Bargury ditekankan Tingkat keparahan serangan terhadap kabel.”Kami telah menunjukkan ini benar-benar nol-klik; kami hanya membutuhkan email Anda, kami berbagi dokumen dengan Anda, dan hanya itu. Jadi ya, ini sangat, sangat buruk.”Dia juga mencatat implikasi yang lebih luas bagi industri. “Ini sangat kuat, tetapi seperti biasa dengan AI, lebih banyak daya datang dengan lebih banyak risiko.”
Serangan sepenuhnya otomatis dan tidak memerlukan klik dari korban di luar unggahan file awal. Bargury menjelaskan,”Tidak ada yang perlu dilakukan pengguna untuk dikompromikan, dan tidak ada yang perlu dilakukan pengguna agar data keluar.”Ini membuatnya sangat berbahaya, karena pengguna menerima respons yang tampaknya normal, tidak menyadari pelanggaran telah terjadi.
Dalam siaran pers pada 6 Agustus, Zenity memperingatkan bahwa teknik agenflayer