GitHub, la piattaforma più utilizzata al mondo per lo sviluppo di software open source, si trova ad affrontare un problema crescente: l’uso improprio del suo sistema stellare. Progettate per segnalare popolarità e qualità, queste stelle vengono ora sfruttate per gonfiare artificialmente la reputazione dei repository, molti dei quali ospitano malware o sono coinvolti in altre attività dannose.

Ricercatori della Carnegie Mellon University, Socket e North La Carolina State University ha condotto uno studio esponendo la portata e le implicazioni di questo comportamento fraudolento. (tramite Bleepingcomputer)

Hanno identificato oltre 4,5 milioni di false stelle associate a 15.835 repository tra il 2019 e il 2024, facendo luce su una tendenza allarmante che mina la fiducia nella piattaforma e mette a repentaglio l’ecosistema open source.

Correlato: Commenti su GitHub utilizzati per diffondere Lumma per il furto di credenziali Malware

Implicazioni per sviluppatori e organizzazioni

L’uso improprio delle star di GitHub ha implicazioni significative per gli sviluppatori, le organizzazioni e la più ampia catena di fornitura del software. Le stelle vengono spesso utilizzate come una rapida euristica per valutare la qualità di un repository, in particolare dagli sviluppatori che cercano componenti open source da integrare nei loro progetti.

Tuttavia, come rivelato dallo studio, il 15,8% dei repository che hanno ricevuto 50 o più stelle nel luglio 2024 erano collegati a campagne di stelle false. Questa distorsione mina la credibilità dello star system di GitHub ed evidenzia i rischi di fare affidamento su parametri unici per il processo decisionale.

Il numero di repository con campagne star false in ogni mese, rispetto al numero di tutti i repository GitHub che hanno ricevuto ≥50 stelle in quel mese. (Fonte: Studio)

I ricercatori hanno sottolineato l’importanza di un approccio più olistico alla valutazione dei repository. Hanno affermato: “Il conteggio delle stelle è un segnale di qualità inaffidabile e non dovrebbe essere utilizzato per decisioni ad alto rischio, almeno non da solo. È fondamentale valutare altri segnali per evitare di sopravvalutare la popolarità o la reputazione, il che potrebbe portare a rischi per la sicurezza.”

Incoraggiano gli sviluppatori e le organizzazioni a guardare oltre il numero di stelle e valutare fattori aggiuntivi, come documentazione, richieste pull e l’attività di collaboratori affidabili, per prendere decisioni informate.

Correlato: oltre 3.000 account GitHub utilizzati nella campagna malware di Stargazer Goblin

I rischi per la sicurezza delle Fake Star

Uno degli aspetti più preoccupanti delle campagne delle Fake Star è il loro collegamento con la distribuzione di malware. Molti repository segnalati erano progetti di breve durata mascherati da software pirata , trucchi di giochi o bot di criptovaluta.

Questi repository spesso contenevano malware nascosto progettato per rubare dati sensibili o criptovalute da utenti ignari repository di malware di phishing di breve durata che si mascherano da software pirata o altri strumenti allettanti per attirare utenti ignari.”

I risultati evidenziano le vulnerabilità nelle metriche e nei sistemi di moderazione di GitHub. Sebbene GitHub abbia agito per rimuovere molti repository contrassegnati, la piattaforma deve affrontare sfide significative nel collegare account dannosi alle loro attività.

I ricercatori hanno suggerito che GitHub implementi metriche ponderate che tengano conto della reputazione degli utenti e dei modelli di attività, riducendo l’impatto delle interazioni fraudolente. Hanno inoltre raccomandato maggiore trasparenza e collaborazione con la comunità open source per sviluppare strumenti e linee guida per l’identificazione di attività fraudolente.

Correlato: Microsoft combatte i problemi di sicurezza informatica su GitHub con soluzioni AI

StarScout: uno strumento per identificare le star false

Per affrontare questa minaccia crescente, il team di ricerca ha sviluppato e rilasciato StarScout, uno strumento di rilevamento avanzato che opera su larga scala per scoprire stelle GitHub sospette.

StarScout utilizza un framework basato su Python che richiede Python 3.12 ed è stato testato su Ubuntu 22.04. Impiega due euristiche di rilevamento primarie: l’euristica a bassa attività e l’euristica di clustering.

Queste tecniche identificano modelli di attività fraudolente, come account che interagiscono minimamente con GitHub oltre ai repository protagonisti o gruppi coordinati di account che agiscono di concerto per gonfiare le metriche.

La configurazione di StarScout implica la creazione un ambiente Python e configurando varie credenziali, inclusi token API MongoDB, Google Cloud e GitHub. Lo strumento è progettato per ricercatori e analisti che hanno familiarità con l’elaborazione dei dati su larga scala, poiché l’esecuzione degli script di rilevamento comporta la lettura di oltre 20 terabyte di dati.

Come descritto dai ricercatori,”le query BigQuery non richiederanno più di qualche minuto, ma lo script recupererà anche l’API GitHub per raccogliere determinate informazioni. Aspettatevi che sia più lento e generi molti messaggi di errore (perché molti dei repository di stelle false sono stati eliminati).”

Rilevamento di campagne di stelle false: il processo

Il flusso di lavoro di StarScout inizia con l’esecuzione dell’euristica a bassa attività, che analizza i dati GitHub da intervalli di tempo specificati e identifica anomalie indicative di stelle false. I risultati vengono archiviati in MongoDB ed esportati in locale File CSV.

Questo passaggio è seguito dall’euristica del clustering, che utilizza l’algoritmo CopyCatch per rilevare attività coordinate su intervalli di sei mesi. A causa della complessità di queste operazioni, l’euristica del clustering può richiedere fino a settimana per elaborare i dati, consumando oltre 40 terabyte di spazio di archiviazione. Una volta completati, i risultati vengono esportati e aggregati in un set di dati di sospette stelle false.

Il set di dati viene aggiornato trimestralmente, riflettendo il più recente. risultati del gruppo di ricerca. In particolare, i ricercatori avvertono che il set di dati contiene casi sospetti e può includere falsi positivi.

Hanno spiegato:”I singoli archivi e utenti nel nostro set di dati potrebbero essere falsi positivi. Lo scopo principale del nostro set di dati è l’analisi statistica (che tollera abbastanza bene i rumori), non la vergogna pubblica dei singoli archivi.”Le considerazioni etiche sono una componente critica di questo lavoro, poiché la ricerca mira a evidenziare tendenze più ampie piuttosto che indirizzarsi a progetti specifici o sviluppatori.

Il ruolo di StarScout nel plasmare il futuro

Lo sviluppo di StarScout rappresenta un progresso significativo nella lotta contro le attività fraudolente su GitHub, sfruttando le tecniche basate sui dati, lo strumento fornisce una soluzione scalabile per identificare le campagne false.

I ricercatori hanno spiegato:”StarScout dimostra come gli strumenti basati sui dati possono essere utilizzati per identificare e mitigare le attività fraudolente su piattaforme online. I nostri risultati sottolineano l’importanza di sviluppare soluzioni scalabili per proteggere gli utenti e mantenere la fiducia nell’ecosistema del software”. Man mano che GitHub continua a crescere, strumenti come StarScout saranno essenziali per affrontare le minacce emergenti e garantire la sostenibilità della piattaforma.

Un appello per rafforzare l’integrità open source

I risultati di questo studio evidenziano l’urgente necessità di un cambiamento sistemico all’interno della comunità open source. Poiché la dipendenza dai componenti open source continua a crescere, garantire la loro sicurezza e affidabilità è fondamentale. Dando priorità alla trasparenza, alla responsabilità e a metriche solide, la comunità open source può costruire un ecosistema più resiliente a vantaggio di sviluppatori, aziende e utenti.

Sebbene le sfide poste dalle campagne false star siano significative, esse rappresentano anche un’opportunità per rafforzare le basi dello sviluppo open source. Lavorando insieme, i fornitori di piattaforme, gli sviluppatori e le organizzazioni possono affrontare queste minacce e garantire che GitHub rimanga una risorsa affidabile per l’innovazione e la collaborazione.

Categories: IT Info