GitHub, nền tảng phát triển phần mềm nguồn mở được sử dụng rộng rãi nhất trên thế giới, đang phải đối mặt với một vấn đề ngày càng gia tăng: việc sử dụng sai hệ thống sao của nó. Được thiết kế để báo hiệu mức độ phổ biến và chất lượng, những ngôi sao này hiện đang bị khai thác để thổi phồng danh tiếng của các kho lưu trữ một cách giả tạo, nhiều kho trong số đó chứa phần mềm độc hại hoặc tham gia vào các hoạt động độc hại khác.
Các nhà nghiên cứu từ Đại học Carnegie Mellon, Socket và North Đại học bang Carolina đã tiến hành một nghiên cứu vạch trần quy mô và hệ lụy của hành vi gian lận này. (thông qua Bleepingcomputer)
Họ đã xác định được hơn 4,5 triệu ngôi sao giả liên quan đến 15.835 kho lưu trữ từ năm 2019 đến năm 2024, làm sáng tỏ một xu hướng đáng báo động làm suy yếu niềm tin vào nền tảng và gây nguy hiểm cho hệ sinh thái nguồn mở.
Liên quan: Nhận xét GitHub được sử dụng để phát tán phần mềm độc hại Lumma đánh cắp thông tin xác thực
Những tác động đối với nhà phát triển và Tổ chức
Việc lạm dụng các ngôi sao GitHub có tác động đáng kể đối với các nhà phát triển, tổ chức và chuỗi cung ứng phần mềm rộng hơn. Các dấu sao thường được sử dụng như một phương pháp phỏng đoán nhanh để đánh giá chất lượng của kho lưu trữ, đặc biệt là bởi các nhà phát triển đang tìm kiếm các thành phần nguồn mở để tích hợp vào dự án của họ.
Tuy nhiên, như nghiên cứu đã tiết lộ, 15,8% kho lưu trữ nhận được 50 sao trở lên vào tháng 7 năm 2024 có liên quan đến các chiến dịch sao giả. Sự bóp méo này làm giảm độ tin cậy của hệ thống sao của GitHub và nêu bật những rủi ro khi dựa vào các số liệu duy nhất để đưa ra quyết định.
Số lượng kho lưu trữ với các chiến dịch sao giả mỗi tháng, so với số lượng tất cả các kho GitHub nhận được ≥50 sao trong tháng đó. (Nguồn: Nghiên cứu)
Các nhà nghiên cứu nhấn mạnh tầm quan trọng của cách tiếp cận toàn diện hơn để đánh giá các kho lưu trữ. Họ tuyên bố: “Số lượng sao là một tín hiệu không đáng tin cậy về chất lượng và không nên được sử dụng cho các quyết định mang tính rủi ro cao, ít nhất là không phải riêng lẻ. Điều quan trọng là phải đánh giá các tín hiệu khác để tránh đánh giá quá cao mức độ phổ biến hoặc danh tiếng, điều này có thể dẫn đến rủi ro bảo mật.”
Họ khuyến khích các nhà phát triển và tổ chức nhìn xa hơn số lượng sao và đánh giá các yếu tố bổ sung, chẳng hạn như tài liệu, yêu cầu kéo và hoạt động của những người đóng góp có uy tín để đưa ra quyết định sáng suốt.
Có liên quan: Hơn 3.000 tài khoản GitHub được sử dụng trong Chiến dịch phần mềm độc hại của Stargazer Goblin
The Rủi ro bảo mật của hàng giả Các ngôi sao
Một trong những khía cạnh đáng lo ngại nhất của các chiến dịch sao giả là mối liên hệ của chúng với việc phân phối phần mềm độc hại. Nhiều kho lưu trữ bị gắn cờ là các dự án tồn tại trong thời gian ngắn giả dạng phần mềm vi phạm bản quyền, trò gian lận trong trò chơi hoặc bot tiền điện tử <./p>
Các kho lưu trữ này thường chứa phần mềm độc hại ẩn được thiết kế để đánh cắp dữ liệu nhạy cảm hoặc tiền điện tử từ những người dùng không nghi ngờ. Các nhà nghiên cứu giải thích: “Các chiến dịch này thường quảng bá các kho lưu trữ phần mềm độc hại lừa đảo tồn tại trong thời gian ngắn ngụy trang thành phần mềm vi phạm bản quyền hoặc các công cụ hấp dẫn khác để thu hút. những người dùng không nghi ngờ.”
Các phát hiện này nêu bật các lỗ hổng trong hệ thống kiểm duyệt và số liệu của GitHub. Trong khi GitHub đã hành động để xóa nhiều kho lưu trữ bị gắn cờ, nền tảng này phải đối mặt với những thách thức đáng kể trong việc liên kết các tài khoản độc hại với hoạt động của chúng.
Các nhà nghiên cứu đề xuất GitHub triển khai các số liệu có trọng số xem xét danh tiếng và mô hình hoạt động của người dùng, giảm tác động của các tương tác gian lận. Họ cũng đề xuất sự minh bạch và hợp tác cao hơn với cộng đồng nguồn mở để phát triển các công cụ và nguyên tắc xác định các hoạt động lừa đảo.
Liên quan: Microsoft giải quyết các vấn đề an ninh mạng trên GitHub bằng Giải pháp AI
Liên quan: p>
StarScout: Công cụ xác định các ngôi sao giả
Để giải quyết mối đe dọa ngày càng tăng này, nhóm nghiên cứu đã phát triển và phát hành StarScout, một công cụ phát hiện nâng cao hoạt động trên quy mô lớn để phát hiện các ngôi sao GitHub đáng ngờ.
StarScout sử dụng framework dựa trên Python yêu cầu Python 3.12 và đã được thử nghiệm trên Ubuntu 22.04. Nó sử dụng hai phương pháp phỏng đoán phát hiện chính: phương pháp phỏng đoán hoạt động thấp và phương pháp phỏng đoán phân cụm.
Các kỹ thuật này xác định các mô hình hoạt động gian lận, chẳng hạn như các tài khoản tương tác tối thiểu với GitHub ngoài các kho lưu trữ gắn dấu sao hoặc các nhóm tài khoản phối hợp hoạt động phối hợp để tăng số liệu.
Thiết lập StarScout bao gồm việc tạo môi trường Python và định cấu hình các thông tin xác thực khác nhau, bao gồm mã thông báo API MongoDB, Google Cloud và GitHub. Công cụ này được thiết kế dành cho các nhà nghiên cứu và nhà phân tích quen thuộc với việc xử lý dữ liệu quy mô lớn, vì việc chạy các tập lệnh phát hiện liên quan đến việc đọc hơn 20 terabyte dữ liệu.
Theo mô tả của các nhà nghiên cứu, “các truy vấn BigQuery sẽ không mất quá vài phút nhưng tập lệnh cũng sẽ tìm nạp API GitHub để thu thập một số thông tin nhất định. Dự kiến nó sẽ chậm hơn và xuất ra nhiều thông báo lỗi (vì nhiều kho sao giả đã bị xóa).”
Phát hiện chiến dịch sao giả: Quá trình
Quy trình làm việc của StarScout bắt đầu bằng việc chạy phương pháp phỏng đoán hoạt động thấp, phân tích dữ liệu GitHub từ các khung thời gian được chỉ định và xác định các điểm bất thường cho thấy các dấu sao giả. Kết quả được lưu trữ trong MongoDB và xuất sang tệp CSV cục bộ
. Bước này được theo sau bởi phương pháp phỏng đoán phân cụm, sử dụng thuật toán CopyCatch để phát hiện các hoạt động phối hợp trong khoảng thời gian sáu tháng. Do tính phức tạp của các hoạt động này, phương pháp phỏng đoán phân cụm có thể mất tới một tuần để xử lý dữ liệu, tiêu tốn hơn 40 terabyte dung lượng lưu trữ. kết quả được xuất và tổng hợp thành tập dữ liệu gồm các ngôi sao giả bị nghi ngờ.
Tập dữ liệu được cập nhật hàng quý, phản ánh những phát hiện gần đây nhất của nhóm nghiên cứu. Đáng chú ý, các nhà nghiên cứu cảnh báo rằng tập dữ liệu có chứa các trường hợp nghi ngờ và có thể bao gồm. SAI tích cực.
Họ giải thích: “Các kho lưu trữ và người dùng riêng lẻ trong tập dữ liệu của chúng tôi có thể là kết quả dương tính giả. Mục đích chính của tập dữ liệu của chúng tôi là để phân tích thống kê (có khả năng chịu đựng tiếng ồn khá tốt), không phải để công khai bôi xấu các kho lưu trữ riêng lẻ.”nhà phát triển.
Vai trò của StarScout trong việc định hình tương lai
Sự phát triển của StarScout thể hiện một tiến bộ đáng kể trong cuộc chiến chống lại các hoạt động gian lận trên GitHub bằng cách tận dụng. các kỹ thuật dựa trên dữ liệu, công cụ này cung cấp giải pháp có thể mở rộng để xác định các chiến dịch sao giả mạo
Các nhà nghiên cứu giải thích: “StarScout chứng minh cách sử dụng các công cụ dựa trên dữ liệu để xác định và giảm thiểu các hoạt động gian lận trên nền tảng trực tuyến. các giải pháp có thể mở rộng để bảo vệ người dùng và duy trì niềm tin vào hệ sinh thái phần mềm.”Khi GitHub tiếp tục phát triển, các công cụ như StarScout sẽ rất cần thiết trong việc giải quyết các mối đe dọa mới nổi và đảm bảo tính bền vững của nền tảng.
Lời kêu gọi tăng cường tính toàn vẹn của nguồn mở
Những phát hiện của nghiên cứu này nêu bật nhu cầu cấp thiết về sự thay đổi mang tính hệ thống trong cộng đồng nguồn mở. Khi sự phụ thuộc vào các thành phần nguồn mở tiếp tục tăng lên, việc đảm bảo tính bảo mật và độ tin cậy của chúng là điều tối quan trọng. Bằng cách ưu tiên tính minh bạch, trách nhiệm giải trình và các số liệu mạnh mẽ, cộng đồng nguồn mở có thể xây dựng một hệ sinh thái linh hoạt hơn mang lại lợi ích cho cả nhà phát triển, doanh nghiệp và người dùng.
Mặc dù những thách thức do các chiến dịch sao giả đặt ra là rất lớn nhưng chúng cũng mang đến cơ hội củng cố nền tảng phát triển nguồn mở. Bằng cách hợp tác cùng nhau, các nhà cung cấp nền tảng, nhà phát triển và tổ chức có thể giải quyết những mối đe dọa này và đảm bảo rằng GitHub vẫn là nguồn tài nguyên đáng tin cậy cho sự đổi mới và cộng tác.