O GitHub, a plataforma mais utilizada no mundo para desenvolvimento de software de código aberto, está enfrentando um problema crescente: o uso indevido de seu sistema estelar. Projetadas para sinalizar popularidade e qualidade, essas estrelas estão agora sendo exploradas para inflar artificialmente a reputação dos repositórios, muitos dos quais abrigam malware ou se envolvem em outras atividades maliciosas.
Pesquisadores da Carnegie Mellon University, Socket e North A Carolina State University conduziu um estudo expondo a escala e as implicações desse comportamento fraudulento. (via Bleepingcomputer)
Eles identificaram mais de 4,5 milhões de estrelas falsas associadas a 15.835 repositórios entre 2019 e 2024, lançando luz sobre um tendência alarmante que mina a confiança na plataforma e põe em risco o ecossistema de código aberto.
Relacionado: Comentários do GitHub usados para espalhar Lumma que rouba credenciais Malware
Implicações para desenvolvedores e organizações
O uso indevido de estrelas do GitHub tem implicações significativas para desenvolvedores, organizações e para a cadeia de fornecimento de software em geral. As estrelas são frequentemente usadas como uma heurística rápida para avaliar a qualidade de um repositório, principalmente por desenvolvedores que procuram componentes de código aberto para integrar em seus projetos.
No entanto, conforme revelou o estudo, 15,8% dos repositórios que receberam 50 ou mais estrelas em julho de 2024 estavam vinculados a campanhas de estrelas falsas. Essa distorção mina a credibilidade do sistema estelar do GitHub e destaca os riscos de depender de métricas únicas para a tomada de decisões.
O número de repositórios com campanhas de estrelas falsas em cada mês, em comparação com o número de todos os repositórios GitHub que receberam ≥50 estrelas naquele mês. (Fonte: Estudo)
Os pesquisadores enfatizaram a importância de uma abordagem mais holística para avaliar repositórios. Eles declararam: “A contagem de estrelas não é um sinal confiável de qualidade e não deve ser usada para decisões de alto risco, pelo menos não por si só. É vital avaliar outros sinais para evitar superestimar a popularidade ou a reputação, o que pode levar a riscos de segurança.”
Eles incentivam os desenvolvedores e as organizações a olhar além da contagem de estrelas e avaliar fatores adicionais, como documentação, pull requests , e a atividade de colaboradores respeitáveis, para tomar decisões informadas.
Relacionado: Mais de 3.000 contas GitHub usadas na campanha de malware do Stargazer Goblin
O Riscos de segurança de estrelas falsas
Um dos aspectos mais preocupantes das campanhas de estrelas falsas é sua conexão com a distribuição de malware. Muitos repositórios sinalizados eram projetos de curta duração disfarçados de software pirata, cheats de jogos ou outros. bots de criptomoedas
Esses repositórios geralmente continham malware oculto projetado para roubar dados confidenciais ou criptomoedas de usuários desavisados. Os pesquisadores explicaram: “Essas campanhas frequentemente promovem repositórios de malware de phishing de curta duração. que se disfarçam de software pirata ou outras ferramentas atraentes para atrair usuários desavisados.”
As descobertas destacam vulnerabilidades nas métricas e nos sistemas de moderação do GitHub. Embora o GitHub tenha agido para remover muitos repositórios sinalizados, a plataforma enfrenta desafios significativos ao vincular contas maliciosas às suas atividades.
Os pesquisadores sugeriram que o GitHub implementasse métricas ponderadas que considerassem a reputação do usuário e os padrões de atividade, reduzindo o impacto de interações fraudulentas. Eles também recomendaram maior transparência e colaboração com a comunidade de código aberto para desenvolver ferramentas e diretrizes para identificar atividades fraudulentas.
Relacionado: Microsoft enfrenta problemas de segurança cibernética no GitHub com soluções de IA
StarScout: uma ferramenta para identificar estrelas falsas
Para enfrentar esta ameaça crescente, a equipe de pesquisa desenvolveu e lançou o StarScout, uma ferramenta de detecção avançada que opera em escala para descobrir estrelas suspeitas do GitHub.
StarScout usa uma estrutura baseada em Python que requer Python 3.12 e foi testado no Ubuntu 22.04. Ele emprega duas heurísticas de detecção primária: a heurística de baixa atividade e a heurística de agrupamento.
Essas técnicas identificam padrões de atividades fraudulentas, como contas que se envolvem minimamente com o GitHub além de repositórios marcados ou grupos coordenados de contas que agem em conjunto para aumentar as métricas.
A configuração do StarScout envolve a criação um ambiente Python e configuração de várias credenciais, incluindo MongoDB, Google Cloud e tokens de API GitHub. A ferramenta foi projetada para pesquisadores e analistas familiarizados com o processamento de dados em grande escala, pois a execução dos scripts de detecção envolve a leitura de mais de 20 terabytes de dados.
Conforme descrito pelos pesquisadores, “as consultas do BigQuery não levarão mais do que alguns minutos, mas o script também buscará a API do GitHub para coletar determinadas informações. Espere que seja mais lento e gere muitas mensagens de erro (porque muitos dos repositórios de estrelas falsas foram excluídos).”
Detectando campanhas de estrelas falsas: o processo
O fluxo de trabalho do StarScout começa com a execução da heurística de baixa atividade, que analisa dados do GitHub em intervalos de tempo especificados e identifica anomalias indicativas de estrelas falsas. Os resultados são armazenados no MongoDB e exportados para arquivos CSV locais
.
Essa etapa é seguida pela heurística de clustering, que usa o algoritmo CopyCatch para detectar atividades coordenadas em intervalos de seis meses. Devido à complexidade dessas operações, a heurística de clustering pode levar até uma semana para processar os dados, consumindo mais. 40 terabytes de armazenamento Depois de concluídos, os resultados são exportados e agregados em um conjunto de dados de estrelas suspeitas de serem falsas.
O conjunto de dados é atualizado trimestralmente, refletindo as descobertas mais recentes da equipe de pesquisa. Notavelmente, os pesquisadores alertam que o conjunto de dados contém casos suspeitos e pode incluir falsos positivos.
Eles explicaram: “Os repositórios e usuários individuais em nosso conjunto de dados podem ser falsos positivos. O principal objetivo do nosso conjunto de dados é para análises estatísticas (que tolera ruídos razoavelmente bem), e não para envergonhar publicamente repositórios individuais.”As considerações éticas são um componente crítico deste trabalho, já que a pesquisa visa destacar tendências mais amplas em vez de focar em projetos específicos ou desenvolvedores.
O papel do StarScout na definição do futuro
O desenvolvimento do StarScout representa um avanço significativo na luta contra atividades fraudulentas no GitHub ao aproveitar. técnicas baseadas em dados, a ferramenta fornece uma solução escalonável para identificar campanhas falsas de estrelas
Os pesquisadores explicaram: “StarScout demonstra como ferramentas baseadas em dados podem ser usadas para identificar e mitigar atividades fraudulentas em plataformas online. as descobertas ressaltam a importância do desenvolvimento de soluções escaláveis para proteger os usuários e manter a confiança no ecossistema de software.”À medida que o GitHub continua a crescer, ferramentas como o StarScout serão essenciais para enfrentar ameaças emergentes e garantir a sustentabilidade da plataforma.
Um apelo para fortalecer a integridade do código aberto
As conclusões deste estudo destacam a necessidade urgente de mudança sistêmica na comunidade de código aberto. À medida que a dependência de componentes de código aberto continua a crescer, garantir sua segurança e confiabilidade é fundamental. Ao priorizar a transparência, a responsabilidade e métricas robustas, a comunidade de código aberto pode construir um ecossistema mais resiliente que beneficia desenvolvedores, empresas e usuários.
Embora os desafios colocados pelas campanhas com estrelas falsas sejam significativos, eles também apresentam uma oportunidade para fortalecer a base do desenvolvimento de código aberto. Ao trabalharem juntos, os fornecedores de plataformas, desenvolvedores e organizações podem enfrentar essas ameaças e garantir que o GitHub continue sendo um recurso confiável para inovação e colaboração.