GitHub, platform yang paling banyak digunakan di dunia untuk pengembangan perangkat lunak sumber terbuka, menghadapi masalah yang semakin besar: penyalahgunaan sistem bintangnya. Dirancang untuk menunjukkan popularitas dan kualitas, bintang-bintang ini kini dieksploitasi untuk meningkatkan reputasi repositori secara artifisial, yang banyak di antaranya menyimpan malware atau terlibat dalam aktivitas jahat lainnya.
Para peneliti dari Carnegie Mellon University, Socket, dan North Carolina State University melakukan penelitian yang mengungkap skala dan implikasi perilaku penipuan ini. (melalui Bleepingcomputer)
Mereka mengidentifikasi lebih dari 4,5 juta bintang palsu yang terkait dengan 15.835 repositori antara tahun 2019 dan 2024, menyoroti tren mengkhawatirkan yang melemahkan kepercayaan pada platform dan membahayakan ekosistem sumber terbuka.
Terkait: Komentar GitHub Digunakan untuk Menyebarkan Malware Lumma Pencuri Kredensial
Implikasi bagi Pengembang dan Organisasi
Penyalahgunaan bintang GitHub memiliki implikasi signifikan bagi pengembang, organisasi, dan rantai pasokan perangkat lunak yang lebih luas. Bintang sering kali digunakan sebagai heuristik cepat untuk mengevaluasi kualitas repositori, terutama oleh pengembang yang mencari komponen sumber terbuka untuk diintegrasikan ke dalam proyek mereka.
Namun, seperti yang terungkap dalam penelitian, 15,8% repositori yang menerima 50 bintang atau lebih pada Juli 2024 dikaitkan dengan kampanye bintang palsu. Distorsi ini melemahkan kredibilitas sistem bintang GitHub dan menyoroti risiko mengandalkan metrik tunggal dalam pengambilan keputusan.
Jumlah repositori dengan kampanye bintang palsu di setiap bulan, dibandingkan dengan jumlah seluruh repositori GitHub yang menerima ≥50 bintang di bulan tersebut. (Sumber: Studi)
Para peneliti menekankan pentingnya pendekatan yang lebih holistik dalam mengevaluasi repositori. Mereka menyatakan, “Jumlah bintang adalah sinyal kualitas yang tidak dapat diandalkan dan tidak boleh digunakan untuk pengambilan keputusan yang berisiko tinggi, setidaknya tidak dengan sendirinya. Sangat penting untuk mengevaluasi sinyal lain untuk menghindari melebih-lebihkan popularitas atau reputasi, yang dapat menyebabkan risiko keamanan.”
Mereka mendorong pengembang dan organisasi untuk melihat lebih dari sekedar jumlah bintang dan menilai faktor-faktor tambahan, seperti dokumentasi, permintaan penarikan , dan aktivitas kontributor terkemuka, untuk mengambil keputusan yang tepat.
Terkait: Lebih dari 3.000 Akun GitHub Digunakan dalam Kampanye Malware Stargazer Goblin
The Keamanan Risiko Bintang Palsu
Salah satu aspek yang paling mengkhawatirkan dari kampanye bintang palsu adalah kaitannya dengan distribusi malware. Banyak repositori yang ditandai merupakan proyek berumur pendek yang menyamar sebagai perangkat lunak bajakan, cheat game, atau mata uang kripto bot.
Repositori ini sering kali berisi malware tersembunyi yang dirancang untuk mencuri data sensitif atau mata uang kripto dari pengguna yang tidak menaruh curiga. Para peneliti menjelaskan, “Kampanye ini sering kali mempromosikan repositori malware phishing berumur pendek yang menyamar sebagai perangkat lunak bajakan atau lainnya alat yang menarik untuk memikat pengguna yang tidak curiga.”
Temuan ini menyoroti kerentanan dalam metrik dan sistem moderasi GitHub. Meskipun GitHub telah bertindak untuk menghapus banyak repositori yang ditandai, platform ini menghadapi tantangan besar dalam menghubungkan akun jahat ke aktivitas mereka.
Para peneliti menyarankan agar GitHub menerapkan metrik berbobot yang mempertimbangkan reputasi pengguna dan pola aktivitas, sehingga mengurangi dampak interaksi penipuan. Mereka juga merekomendasikan transparansi dan kolaborasi yang lebih besar dengan komunitas sumber terbuka untuk mengembangkan alat dan pedoman guna mengidentifikasi aktivitas penipuan.
Terkait: Microsoft Memerangi Masalah Keamanan Siber di GitHub dengan Solusi AI
StarScout: Alat untuk Mengidentifikasi Bintang Palsu
Untuk mengatasi ancaman yang semakin besar ini, tim peneliti mengembangkan dan merilis StarScout, alat deteksi canggih yang beroperasi dalam skala besar untuk mengungkap bintang GitHub yang mencurigakan.
StarScout menggunakan kerangka kerja berbasis Python yang membutuhkan Python 3.12 dan telah diuji di Ubuntu 22.04. Ini menggunakan dua heuristik deteksi utama: heuristik aktivitas rendah dan heuristik pengelompokan.
Teknik ini mengidentifikasi pola aktivitas penipuan, seperti akun yang terlibat secara minimal dengan GitHub di luar repositori yang dibintangi atau kelompok akun terkoordinasi yang bertindak bersama untuk meningkatkan metrik.
Penyiapan StarScout melibatkan pembuatan lingkungan Python dan mengonfigurasi berbagai kredensial, termasuk token MongoDB, Google Cloud, dan GitHub API. Alat ini dirancang untuk para peneliti dan analis yang akrab dengan pemrosesan data skala besar, karena menjalankan skrip deteksi memerlukan pembacaan lebih dari 20 terabyte data.
Seperti yang dijelaskan oleh para peneliti, “kueri BigQuery tidak akan memakan waktu lebih dari beberapa menit, tetapi skrip juga akan mengambil GitHub API untuk mengumpulkan informasi tertentu. Diperkirakan akan lebih lambat dan menghasilkan banyak pesan kesalahan (karena banyak repositori bintang palsu telah dihapus).”
Mendeteksi Kampanye Bintang Palsu: Prosesnya
Alur kerja StarScout dimulai dengan menjalankan heuristik aktivitas rendah, yang menganalisis data GitHub dari jangka waktu tertentu dan mengidentifikasi anomali yang mengindikasikan bintang palsu. Hasilnya disimpan di MongoDB dan diekspor ke file CSV lokal
Langkah ini diikuti dengan heuristik pengelompokan, yang menggunakan algoritma CopyCatch untuk mendeteksi aktivitas terkoordinasi selama interval enam bulan, karena kompleksitas operasi ini, heuristik pengelompokan dapat memakan waktu hingga satu minggu untuk memproses data, sehingga memakan waktu lebih lama Penyimpanan sebesar 40 terabyte. Setelah selesai, hasilnya diekspor dan dikumpulkan ke dalam kumpulan data yang diduga merupakan bintang palsu.
Kumpulan data diperbarui setiap tiga bulan, yang mencerminkan temuan terbaru dari tim peneliti. para peneliti mengingatkan bahwa kumpulan data berisi dugaan kasus dan mungkin berisi hasil positif palsu.
Mereka menjelaskan, “Repositori individu dan pengguna dalam kumpulan data kami mungkin merupakan hasil positif palsu. Tujuan utama kumpulan data kami adalah untuk analisis statistik (yang dapat menoleransi kebisingan dengan cukup baik), bukan untuk mempermalukan repositori individu di depan umum.”Pertimbangan etis adalah komponen penting dari penelitian ini, karena penelitian ini bertujuan untuk menyoroti tren yang lebih luas daripada menargetkan proyek atau proyek tertentu. pengembang.
Peran StarScout dalam Membentuk Masa Depan
Perkembangan StarScout mewakili kemajuan signifikan dalam perjuangan melawan aktivitas penipuan di GitHub Dengan memanfaatkan teknik berbasis data, alat ini memberikan solusi terukur untuk mengidentifikasi kampanye bintang palsu.
Para peneliti menjelaskan, “StarScout menunjukkan bagaimana alat berbasis data dapat digunakan untuk mengidentifikasi dan mengurangi aktivitas penipuan di platform online kami temuan ini menggarisbawahi pentingnya mengembangkan solusi terukur untuk melindungi pengguna dan menjaga kepercayaan pada ekosistem perangkat lunak.”Seiring dengan pertumbuhan GitHub, alat seperti StarScout akan sangat penting dalam mengatasi ancaman yang muncul dan memastikan keberlanjutan platform.
Seruan untuk Memperkuat Integritas Sumber Terbuka
Temuan penelitian ini menyoroti kebutuhan mendesak akan perubahan sistemik dalam komunitas open-source. Karena ketergantungan pada komponen sumber terbuka terus meningkat, memastikan keamanan dan keandalannya adalah hal yang terpenting. Dengan memprioritaskan transparansi, akuntabilitas, dan metrik yang kuat, komunitas sumber terbuka dapat membangun ekosistem yang lebih tangguh yang menguntungkan pengembang, bisnis, dan pengguna.
Meskipun tantangan yang ditimbulkan oleh kampanye bintang palsu sangat besar, mereka juga memberikan peluang untuk memperkuat landasan pengembangan sumber terbuka. Dengan bekerja sama, penyedia platform, developer, dan organisasi dapat mengatasi ancaman ini dan memastikan bahwa GitHub tetap menjadi sumber daya tepercaya untuk inovasi dan kolaborasi.