GitHub, la plateforme de développement de logiciels open source la plus utilisée au monde, est confrontée à un problème croissant : l’utilisation abusive de son système stellaire. Conçues pour signaler la popularité et la qualité, ces étoiles sont désormais exploitées pour gonfler artificiellement la réputation des référentiels, dont beaucoup hébergent des logiciels malveillants ou se livrent à d’autres activités malveillantes.
Chercheurs de l’Université Carnegie Mellon, Socket et North. L’Université d’État de Caroline a mené une étude exposant l’ampleur et les implications de ce comportement frauduleux. (via Bleepingcomputer)
Ils ont identifié plus de 4,5 millions de fausses étoiles associées à 15 835 référentiels entre 2019 et 2024, mettant en lumière une tendance alarmante. cela mine la confiance dans la plateforme et met en péril l’écosystème open source.
Connexe : Commentaires GitHub utilisés pour diffuser Lumma, voleur d’informations d’identification Logiciels malveillants
Implications pour les développeurs et les organisations
L’utilisation abusive des étoiles GitHub a des implications importantes pour les développeurs, les organisations et la chaîne d’approvisionnement logicielle au sens large. Les étoiles sont souvent utilisées comme heuristique rapide pour évaluer la qualité d’un référentiel, en particulier par les développeurs recherchant des composants open source à intégrer dans leurs projets.
Cependant, comme l’étude l’a révélé, 15,8 % des référentiels ayant reçu 50 étoiles ou plus en juillet 2024 étaient liés à de fausses campagnes d’étoiles. Cette distorsion mine la crédibilité du système d’étoiles de GitHub et met en évidence les risques liés au fait de s’appuyer sur des indicateurs uniques pour la prise de décision.
Le nombre de référentiels avec de fausses campagnes étoiles chaque mois, par rapport au nombre de tous les référentiels GitHub ayant reçu ≥50 étoiles au cours de ce mois. (Source : Étude)
Les chercheurs ont souligné l’importance d’une approche plus holistique pour évaluer les référentiels. Ils ont déclaré: « Le nombre d’étoiles est un signal de qualité peu fiable et ne devrait pas être utilisé pour des décisions à enjeux élevés, du moins pas en soi. Il est essentiel d’évaluer d’autres signaux pour éviter de surestimer la popularité ou la réputation, ce qui pourrait entraîner des risques de sécurité.”
Ils encouragent les développeurs et les organisations à regarder au-delà du nombre d’étoiles et à évaluer des facteurs supplémentaires, tels que la documentation, les demandes d’extraction. , et l’activité de contributeurs réputés, pour prendre des décisions éclairées.
Connexe : Plus de 3 000 comptes GitHub utilisés dans la campagne de logiciels malveillants de Stargazer Goblin
Les risques de sécurité des fausses étoiles
L’un des aspects les plus préoccupants des campagnes de fausses étoiles est leur lien avec la distribution de logiciels malveillants. De nombreux référentiels signalés étaient des projets de courte durée se faisant passer pour des logiciels piratés. , des astuces de jeu ou des robots de crypto-monnaie.
Ces référentiels contenaient souvent des logiciels malveillants cachés conçus pour voler des données sensibles ou des crypto-monnaies à des utilisateurs peu méfiants. Les chercheurs ont expliqué: « Ces campagnes favorisent fréquemment des logiciels malveillants de phishing de courte durée. des référentiels qui se déguisent en logiciels piratés ou en d’autres outils attrayants pour attirer les utilisateurs sans méfiance.”
Les résultats mettent en évidence les vulnérabilités des métriques et des systèmes de modération de GitHub. Bien que GitHub ait pris des mesures pour supprimer de nombreux référentiels signalés, la plateforme est confrontée à des défis importants pour lier les comptes malveillants à leurs activités.
Les chercheurs ont suggéré que GitHub mette en œuvre des mesures pondérées qui prennent en compte la réputation des utilisateurs et les modèles d’activité, réduisant ainsi l’impact des interactions frauduleuses. Ils ont également recommandé une plus grande transparence et une plus grande collaboration avec la communauté open source pour développer des outils et des lignes directrices permettant d’identifier les activités frauduleuses.
Connexe : Microsoft combat les problèmes de cybersécurité sur GitHub avec des solutions d’IA
p>
StarScout : un outil pour identifier les fausses étoiles
Pour faire face à cette menace croissante, l’équipe de recherche a développé et publié StarScout, un outil de détection avancé qui fonctionne à grande échelle pour découvrir les étoiles GitHub suspectes.
StarScout utilise un framework basé sur Python nécessitant Python 3.12 et a été testé sur Ubuntu 22.04. Il utilise deux heuristiques de détection principales : l’heuristique de faible activité et l’heuristique de regroupement.
Ces techniques identifient des modèles d’activités frauduleuses, tels que les comptes qui interagissent peu avec GitHub au-delà des référentiels vedettes ou des groupes coordonnés de comptes agissant de concert pour gonfler les métriques.
La configuration de StarScout implique la création de un environnement Python et la configuration de diverses informations d’identification, notamment les jetons MongoDB, Google Cloud et GitHub API. L’outil est conçu pour les chercheurs et les analystes familiarisés avec le traitement de données à grande échelle, car l’exécution des scripts de détection implique la lecture de plus de 20 téraoctets de données.
Comme l’ont décrit les chercheurs, « les requêtes BigQuery ne prendront pas plus de quelques minutes, mais le script récupérera également l’API GitHub pour collecter certaines informations. Attendez-vous à ce qu’il soit plus lent et génère beaucoup de messages d’erreur (car de nombreux dépôts de fausses étoiles ont été supprimés).”
Détection des fausses campagnes d’étoiles : le processus
Le flux de travail de StarScout commence par l’exécution de l’heuristique à faible activité, qui analyse les données GitHub à partir de périodes spécifiées et identifie les anomalies indiquant de fausses étoiles. Les résultats sont stockés dans MongoDB et exportés vers des fichiers CSV locaux.
Cette étape est suivie de l’heuristique de clustering, qui utilise l’algorithme CopyCatch pour détecter les activités coordonnées sur des intervalles de six mois. En raison de la complexité de ces opérations, le traitement de l’heuristique de clustering peut prendre jusqu’à une semaine. données, consommant plus de 40 téraoctets de stockage, une fois terminés, les résultats sont exportés et agrégés dans un ensemble de données de fausses étoiles présumées.
L’ensemble de données est mis à jour tous les trimestres, reflétant les découvertes les plus récentes de la recherche. Les chercheurs préviennent notamment que l’ensemble de données contient des cas suspects et peut inclure des faux positifs.
Ils ont expliqué: « Les référentiels individuels et les utilisateurs de notre ensemble de données peuvent être des faux positifs. L’objectif principal de notre ensemble de données est d’effectuer des analyses statistiques (qui tolèrent raisonnablement bien les bruits), et non de faire honte publiquement à des référentiels individuels.”Les considérations éthiques sont un élément essentiel de ce travail, car la recherche vise à mettre en évidence des tendances plus larges plutôt que de cibler des projets ou des projets spécifiques. développeurs.
Le rôle de StarScout dans la construction de l’avenir
Le développement de StarScout représente une avancée significative dans la lutte contre les activités frauduleuses sur GitHub. En exploitant des techniques basées sur les données, l’outil fournit une solution évolutive pour identifier les fausses campagnes vedettes.
Les chercheurs ont expliqué: « StarScout démontre comment les outils basés sur les données peuvent être utilisés pour identifier et atténuer les activités frauduleuses sur Internet. plateformes en ligne. Nos résultats soulignent l’importance de développer des solutions évolutives pour protéger les utilisateurs et maintenir la confiance dans l’écosystème logiciel. À mesure que GitHub continue de croître, des outils comme StarScout seront essentiels pour faire face aux menaces émergentes et assurer la durabilité de la plateforme.
Un appel pour renforcer l’intégrité de l’Open Source
Les résultats de cette étude soulignent le besoin urgent d’un changement systémique au sein de la communauté open source. Alors que le recours aux composants open source continue de croître, il est primordial de garantir leur sécurité et leur fiabilité. En donnant la priorité à la transparence, à la responsabilité et à des mesures robustes, la communauté open source peut construire un écosystème plus résilient qui profite aux développeurs, aux entreprises et aux utilisateurs.
Bien que les défis posés par les fausses campagnes vedettes soient importants, ils représentent également une opportunité de renforcer les bases du développement open source. En travaillant ensemble, les fournisseurs de plateformes, les développeurs et les organisations peuvent faire face à ces menaces et garantir que GitHub reste une ressource fiable pour l’innovation et la collaboration.