オープンソース ソフトウェア開発に世界で最も広く使用されているプラットフォームである GitHub は、スター システムの悪用という深刻化する問題に直面しています。人気と品質を示すように設計されたこれらのスターは、現在、リポジトリの評判を人為的につり上げるために悪用されており、その多くはマルウェアを隠しているか、その他の悪意のある活動に関与しています。
カーネギー メロン大学、ソケット、ノースの研究者カロライナ州立大学は、この不正行為の規模と影響を明らかにする研究を実施しました。 (Bleepingcomputer 経由)
彼らは、2019 年から 2024 年の間に 15,835 のリポジトリに関連する 450 万以上の偽スターを特定し、次のような憂慮すべき傾向を明らかにしました。プラットフォームの信頼を損ない、オープンソース エコシステムを危険にさらします。
> 関連: 認証情報を盗む Lumma の拡散に使用された GitHub コメントマルウェア
開発者と組織への影響
GitHub スターの悪用は、開発者、組織、およびより広範なソフトウェア サプライ チェーンに重大な影響を及ぼします。スターは、特にプロジェクトに統合するオープンソース コンポーネントを探している開発者によって、リポジトリの品質を評価するための簡単なヒューリスティックとしてよく使用されます。
しかし、調査で明らかになったように、2024 年 7 月に 50 以上のスターを獲得したリポジトリの 15.8% は偽のスター キャンペーンに関連していました。この歪みは、GitHub のスター システムの信頼性を損ない、意思決定を単一の指標に依存するリスクを浮き彫りにします。
偽のスター キャンペーンを含むリポジトリの数各月で、その月に 50 個以上の星を獲得したすべての GitHub リポジトリの数と比較します。 (出典: 研究)
研究者らは、リポジトリを評価するためのより総合的なアプローチの重要性を強調しました。彼らは、「星の数は品質を示す信頼性の低いシグナルであり、少なくとも単独では、一か八かの意思決定に使用すべきではありません。セキュリティ リスクにつながる可能性のある人気や評判の過大評価を避けるために、他のシグナルを評価することが重要です。」
これらは、開発者や組織がスターの数を超えて、ドキュメントやプル リクエストなどの追加要素を評価することを奨励しています。
関連: スターゲイザー ゴブリンのマルウェア キャンペーンで 3,000 を超える GitHub アカウントが使用
偽のスターのセキュリティ リスク
偽のスター キャンペーンで最も懸念される側面の 1 つは、フラグが立てられたリポジトリの多くは、偽のスターを装った短期間のプロジェクトであったことです。
これらのリポジトリには、機密データや暗号通貨を盗むことを目的とした隠れたマルウェアが含まれていることがよくあります。研究者らは、「これらのキャンペーンは、海賊版ソフトウェアやその他の魅力的なツールを装って、疑いを持たないユーザーを誘惑する短期間のフィッシング マルウェア リポジトリを奨励することがよくあります。」と説明しました。
この調査結果は、GitHub のメトリクスとモデレーションの脆弱性を浮き彫りにしています。システム。 GitHub はフラグが立てられた多くのリポジトリを削除するよう行動してきましたが、プラットフォームは悪意のあるアカウントをそのアクティビティに結び付けるという点で大きな課題に直面しています。
研究者らは、GitHub がユーザーの評判とアクティビティ パターンを考慮した重み付けされたメトリクスを実装し、不正なインタラクションの影響を軽減することを提案しました。また、不正行為を特定するためのツールとガイドラインを開発するために、透明性を高め、オープンソース コミュニティと協力することも推奨しました。
関連: Microsoft、AI ソリューションを使用して GitHub 上のサイバーセキュリティ問題と戦う
p>
StarScout: 偽スターを特定するツール
この増大する脅威に対処するために、研究チームは StarScout は、疑わしい GitHub スターを発見するために大規模に動作する高度な検出ツールです。
StarScout は、Python 3.12 を必要とする Python ベースのフレームワークを使用しており、Ubuntu 22.04 でテストされています。これは、低アクティビティ ヒューリスティックとクラスタリング ヒューリスティックという 2 つの主要な検出ヒューリスティックを採用しています。
これらの手法は、スターリポジトリを超えて GitHub との関わりが最小限であるアカウントや、指標を水増しするために連携して動作するアカウントの調整グループなど、不正行為のパターンを特定します。
StarScout のセットアップには、 Python 環境と、MongoDB、Google Cloud、GitHub API トークンなどのさまざまな認証情報の構成。検出スクリプトの実行には 20 テラバイトを超えるデータの読み取りが必要となるため、このツールは大規模なデータ処理に精通した研究者やアナリスト向けに設計されています。
研究者らの説明によれば、「BigQuery クエリには数分もかかりませんが、スクリプトは特定の情報を収集するために GitHub API も取得します。速度が遅くなり、多くのエラー メッセージが出力されることが予想されます (偽のスター リポジトリの多くが削除されているため)。」
偽のスター キャンペーンの検出: プロセス
StarScout のワークフローは、低アクティビティ ヒューリスティックの実行から始まります。このヒューリスティックは、指定された期間の GitHub データを分析し、偽のスターを示す異常を特定します。結果は MongoDB に保存され、MongoDB にエクスポートされます。
このステップの後には、CopyCatch アルゴリズムを使用して 6 か月間隔で調整されたアクティビティを検出するクラスタリング ヒューリスティックが続きます。これらの操作は複雑であるため、クラスタリング ヒューリスティックには最大 2 時間かかる場合があります。データの処理には 1 週間かかり、40 テラバイトを超えるストレージを消費します。完了すると、結果がエクスポートされ、偽の星のデータセットに集約されます。
データセットは四半期ごとに更新され、最も多くのデータが反映されます。研究チームの最近の調査結果で注目すべきは、データセットには疑わしい症例が含まれており、誤検知が含まれている可能性があると研究者が警告していることです。
彼らは次のように説明しました。私たちのデータセットの主な目的は、統計分析 (ノイズを適度に許容する) であり、個々のリポジトリを公に辱めることではありません。」 研究は特定のプロジェクトやプロジェクトを対象とするのではなく、より広範な傾向に焦点を当てることを目的としているため、倫理的配慮はこの研究の重要な要素です。
未来の形成における StarScout の役割
StarScout の開発は、インターネット上での不正行為との戦いにおける大きな進歩を意味します。 GitHub。データ駆動型の技術を活用することで、このツールは偽のスター キャンペーンを特定するためのスケーラブルなソリューションを提供します。「StarScout は、データ駆動型のツールを使用して不正行為を特定し、軽減する方法を示しています。」私たちの調査結果は、ユーザーを保護し、ソフトウェア エコシステムの信頼を維持するためのスケーラブルなソリューションを開発することの重要性を強調しています。」 GitHub が成長し続けるにつれて、StarScout のようなツールは、新たな脅威に対処し、プラットフォームの持続可能性を確保するために不可欠になります。
オープンソースの整合性を強化するための呼びかけ
この調査結果は、オープンソース コミュニティ内の体系的な変化が緊急に必要であることを浮き彫りにしています。オープンソース コンポーネントへの依存が高まる中、そのセキュリティと信頼性を確保することが最も重要です。透明性、説明責任、堅牢な指標を優先することで、オープンソース コミュニティは、開発者、企業、ユーザーのいずれにも同様に利益をもたらす、より回復力のあるエコシステムを構築できます。
偽のスター キャンペーンによってもたらされる課題は重大ですが、また、オープンソース開発の基盤を強化する機会でもあります。プラットフォーム プロバイダー、開発者、組織は協力することで、これらの脅威に対処し、GitHub がイノベーションとコラボレーションにとって信頼できるリソースであり続けることができます。