Seorang peneliti keamanan telah mengungkap kerentanan kritis pada Claude AI dari Anthropic, sebuah kelemahan yang memungkinkan penyerang mencuri data pengguna dengan menggunakan alat milik AI tersebut untuk melawan dirinya sendiri.
Dalam laporannya, peneliti merinci bagaimana perintah tersembunyi dapat membajak Code Interpreter milik Claude. Perintah ini mengelabui AI agar menggunakan File API milik Anthropic untuk mengirimkan data sensitif, seperti riwayat chat, langsung ke penyerang.
Anthropic awalnya menolak laporan tersebut pada tanggal 25 Oktober, namun membatalkan keputusannya pada tanggal 30 Oktober, karena mengakui adanya “cegukan proses”. Menyoroti tantangan keamanan baru yang kini dihadapi platform AI perusahaan, insiden ini menjadi studi kasus penting.
Eksploitasi Cerdik: Mengubah API Milik Claude Menjadi Saluran Eksfiltrasi Data
Dengan menyatukan beberapa fitur sah Claude, peneliti keamanan Johann Rehberger membuat serangan canggih yang mengubah AI menjadi kaki tangan tanpa disadari.
Eksploitasinya dimulai dengan injeksi cepat tidak langsung, yaitu instruksi berbahaya yang disembunyikan di dalam dokumen yang diminta oleh pengguna kepada Claude. proses.
Perintah tersembunyi ini membajak alur kerja AI, memerintahkannya untuk mengumpulkan informasi sensitif, seperti percakapan obrolan terkini, dan menulis konten ke file dalam lingkungan sandboxnya.
Eksfiltrasi adalah tempat di mana kecerdikan serangan sebenarnya berada. Kode berbahaya mengarahkan Claude untuk menggunakan Penerjemah Kode untuk mengunggah file yang baru dibuat. Yang terpenting, eksploitasi ini memanfaatkan pengawasan dalam pengaturan jaringan default Claude, yang secara eksplisit mengizinkan api.anthropic.com.
Ditujukan untuk fungsi yang sah, titik akhir ini menjadi saluran bagi pelanggaran data. Muatannya memerintahkan Claude untuk mengunggah file menggunakan kunci API penyerang, bukan milik korban.
Seperti yang dijelaskan Rehberger dalam tulisan teknisnya, “pengunggahan tidak akan dilakukan pada akun Anthropic pengguna, namun pada penyerang, karena akun tersebut menggunakan ANTHROPIC_API_KEY milik penyerang di sini!”Teknik seperti ini memungkinkan musuh untuk mengambil hingga 30 MB data sekaligus untuk setiap file yang diunggah.
Untuk mengembangkan eksploitasi yang andal, diperlukan terobosan terhadap mekanisme keamanan bawaan Claude, yang dengan tepat mengidentifikasi kunci API teks biasa sebagai sesuatu yang mencurigakan. Rehberger menemukan solusi yang sederhana namun efektif.
“Saya baru saja mencampurkan banyak kode yang tidak berbahaya, seperti print (‘Halo, dunia’), dan hal itu meyakinkan Claude bahwa tidak terlalu banyak hal jahat yang terjadi.”Metode ini berhasil meyakinkan AI bahwa operasi tersebut tidak berbahaya, sehingga kode berbahaya dapat dieksekusi.
Pengungkapan yang Tidak Jelas: Dari’Di Luar Cakupan’menjadi’Proses Cegukan’
Dalam sebuah langkah yang awalnya membingungkan komunitas keamanan, program bug bounty Anthropic pertama kali menolak laporan tersebut. Setelah Rehberger menyerahkan temuannya melalui HackerOne pada tanggal 25 Oktober, keputusan tersebut ditutup dalam waktu satu jam, dan perusahaan mengklasifikasikan masalah tersebut sebagai model masalah keselamatan yang di luar cakupan, bukan kerentanan keamanan.
Secara publik membantah klasifikasi ini, peneliti berargumen bahwa kelemahan tersebut merupakan risiko keamanan yang nyata, bukan masalah keselamatan yang abstrak.
Dalam pandangannya, “keselamatan melindungi Anda dari kecelakaan. Keamanan melindungi Anda dari musuh.”Perbedaan penting, karena kerentanan keamanan menyiratkan pelanggaran integritas sistem, sedangkan masalah keamanan sering kali berkaitan dengan konten atau perilaku model.
Anthropic mengubah pendiriannya lima hari kemudian, pada tanggal 30 Oktober. Membuka kembali tiket, perusahaan memberi tahu peneliti tentang koreksi arah.
Menurut pembaruan dari Rehberger, “Anthropic telah mengonfirmasi bahwa kerentanan eksfiltrasi data seperti ini berada dalam cakupan pelaporan, dan masalah ini seharusnya tidak ditutup-tutupi karena berada di luar cakupan.”
Mengakui adanya “cegukan proses”menjadikan insiden tersebut sejalan dengan praktik pengungkapan kerentanan standar dan menegaskan keseriusan eksploitasi.
Pola yang Dikenal dalam Keamanan AI Perusahaan
Bagi perusahaan yang menerapkan asisten AI di seluruh organisasinya, kerentanan ini berfungsi sebagai peringatan penting. Insiden ini adalah bagian dari pola eksploitasi yang lebih kompleks dan berantai yang menargetkan agen AI yang sangat terintegrasi dengan data sensitif.
Tekniknya sangat mirip dengan kelemahan yang baru saja ditambal pada Microsoft 365 Copilot, di mana penyerang menggunakan kombinasi injeksi cepat dan diagram Mermaid untuk mengambil data pengguna.
Serangan seperti itu menyoroti tantangan mendasar: ketika agen AI memperoleh lebih banyak kemampuan dan akses ke alat internal, permukaan serangan mereka meluas hingga tak terduga
Pada intinya, risikonya adalah agen AI dapat menjadi bentuk baru ancaman orang dalam. Mereka beroperasi dengan izin yang sah, sehingga menyulitkan alat keamanan tradisional untuk membedakan antara operasi normal dan aktivitas berbahaya yang diatur oleh perintah tersembunyi.
Anthropic sendiri sangat menyadari bagaimana teknologinya dapat dijadikan senjata. Dalam laporan ancaman pada bulan Agustus 2025, perusahaan ini merinci bagaimana pelaku jahat menggunakan Claude untuk melakukan kejahatan dunia maya yang canggih, sebuah praktik yang mereka sebut sebagai “peretasan getaran”.
Hal ini membuat kesalahan awal dalam proses pengungkapan menjadi lebih mengejutkan, karena perusahaan secara aktif meneliti jenis penyalahgunaan yang dimungkinkan oleh kerentanan ini.
Di saat Anthropic telah menjadi pendukung utama keamanan AI, kontroversi pengungkapan menjadi penting.
Perusahaan telah merilis alat seperti Petri untuk mengaudit model AI lainnya dan mengembangkan sistem untuk bertahan dari jailbreak.
Selain itu, modelnya juga tampak kebal terhadap eksploitasi terbaru seperti “penyelundupan ASCII”, yang memengaruhi beberapa pesaing. Konteks ini menunjukkan bahwa laboratorium yang sadar akan keselamatan pun masih kesulitan menentukan cara mengklasifikasikan dan merespons ancaman baru yang berasal dari AI ini.
Pada akhirnya, kerentanan Claude File API menyoroti keseimbangan yang berbahaya antara fungsi dan keamanan di era agen AI. Dokumentasi Anthropic sendiri mengakui risiko ini, dan menyarankan pengguna bahwa “…kami menyarankan Anda memantau Claude saat menggunakan fitur tersebut dan menghentikannya jika Anda melihatnya menggunakan atau mengakses data secara tidak terduga.”
Namun, bagi organisasi besar, memantau setiap interaksi AI secara manual adalah strategi mitigasi yang tidak praktis, bahkan tidak mungkin. Ketika alat-alat canggih ini menjadi lebih otonom, industri harus berlomba untuk membangun paradigma keamanan baru yang mampu melindungi terhadap serangan yang beroperasi dari dalam.