ハクソク

世界を動かす技術を、日本語で。

GitHubのフェイクスター経済

概要

  • CMUの査読済み研究がGitHub上で600万件の偽スターを特定
  • スター購入市場は一般ウェブやFiverr、Telegramで簡単に利用可能
  • VC(ベンチャーキャピタル)スター数を投資判断の指標として明言
  • FTC新規則により偽インフルエンス指標には高額な罰金
  • フォーク/スター比率不正検出の有力な指標

GitHubスター経済圏の全貌:研究・市場・投資パイプライン

  • Carnegie Mellon Universityなどによる査読済み研究(ICSE 2026)がStarScoutツールで2019~2024年の20TB以上のGitHubメタデータを分析

    • 6,000,000件の偽スター18,617リポジトリ、約301,000アカウントで検出
    • 2024年に急増し、50スター以上のリポジトリの16.66%が偽スター関与
    • AI/LLM関連リポジトリが最大の非悪意カテゴリ(17.7万件の偽スター)
    • GitHub Trendingにも偽スターでランクインした事例多数
  • スター販売市場の存在

    • 1スターあたり$0.03~$0.85で販売
    • SocialPlug.io、Buy.fans、GitHubPromoter.comなど少なくとも12サイトが稼働
    • Fiverrでは24件のプロモーション案件、Telegramでは高品質アカウントやコミット履歴付きプロファイルも取引
    • アカウント品質別の価格帯と納品速度
      • 使い捨てアカウント:$0.03~$0.10、即日
      • 中程度:$0.20~$0.50、1~2週間
      • プレミアム:$0.80~$0.90、自然な納品、長期履歴有
    • 交換プラットフォーム(GithubStarMate.com等)や偽コミット履歴生成ツールも存在
  • 実際のリポジトリ分析による不正指標

    • 20リポジトリをGitHub APIで分析、各150プロファイルをサンプリング
    • 健全なリポジトリ:長年活動している開発者が多く、ゴーストアカウント(ゼロリポ・ゼロフォロワー)は約1%
    • 不正疑いリポジトリ(例:Union Labs、Shardeum、FreeDomain等)
      • アカウント年齢は1,000日以上だが、ゼロリポジトリ・ゼロフォロワー率が30~80%
      • ゴーストアカウントが20%超
      • フォーク/スター比率が極端に低い(例:FreeDomainは0.017、Flaskは0.235)
      • Watcher/スター比率も低水準
    • AIリポジトリも同様の傾向あり(RagaAI、openai-fm等)

スター数と資金調達の関係

  • VCはスター数を明確に投資判断材料として利用

    • Redpoint Venturesによる調査:シード時中央値2,850スター、Series Aで4,980スター
    • 自動スクレイピングで急成長リポジトリを検出
    • OSSスタートアップの成長指標としてRuna Capital ROSS Indexが業界標準化
    • GitHub自体もM12 (Microsoft VC)と連携しスター数を資金提供判断に活用
  • スター購入によるROI

    • 2,850スター(シード中央値)は**$85~$285**で購入可能
    • 1,000万ドル規模の資金調達が可能なため、投資対効果は数千倍以上
  • 実例

    • Lovable (旧GPT Engineer):50,000スター、$7.5M調達、時価総額$1.8B
    • Pangolin:1,000スターでY Combinator採択、$4.7M調達
    • LangChain:シードで$10M
    • Browser-use:3ヶ月で50,000スター、$17M調達
  • 自己申告による「スター稼ぎ」

    • Dagsterの調査担当者も「資金調達前はスター数に注力」と明言
    • 学術研究でもGitHub活動と資金調達の相関が統計的に証明済み
  • インセンティブループ

    • VCがスター数を重視→スタートアップが操作→VCがさらにスターを指標化→操作が蔓延

不正検出のシンプルな指標:フォーク/スター比率

  • フォーク/スター比率最も有効な不正検出指標
    • 健全なプロジェクトはスター数に比例してフォークが発生
    • 不正リポジトリはスター数に対してフォークが極端に少ない
    • 例:Flaskは0.235FreeDomainは0.017

法規制とリスク

  • FTC(米連邦取引委員会)2024年新規則
    • 偽インフルエンス指標1件あたり最大$53,088の罰金
  • SEC(証券取引委員会)資金調達時の指標水増しで既に摘発事例有
  • 違反リスクの高まり

まとめ:成熟した「影の経済圏」

  • 偽スター経済圏成熟し、表のネット上で公然と運営
  • 技術的検出手法(フォーク/スター比など)法規制の双方が今後の抑止策
  • VC・スタートアップ双方に大きなインセンティブが存在し、問題は深刻化傾向

Hackerたちの意見

正直な質問なんだけど、VCたちはどうして「スター」システムを信頼できると思ってるんだろう?スターを追加するユーザーは、しばしばプロジェクトのフォローをやめちゃうから、手入れが行き届いてないプロジェクトでもたくさんスターがついてることがあるんだよね。もっといいシステム、でも決して完璧ではないのは、問題の「ライフ」を見て、オープンやクローズ(自動じゃなくて)やレスポンスタイムをチェックすることだと思う。私のプロジェクトは200スター持ってるけど、簡単なバージョンアップすら定期的に更新するのにめちゃくちゃ苦労してる。
スターは、VC投資家でも理解できるシンプルな指標だよね。君の「もっといいシステム」は、ちょっと複雑すぎて時間がかかりそう。
ここでうまく機能するような、もっとグラフ指向のスコアがあるといいな。ユーザーが良いスコアを持っている場合に、リポジトリがより高く評価されるような、ページランク的なもの。そうすれば、粗雑な操作の試みには少し耐性があるかも。
スターは、目標になってしまって良い指標でなくなるという古典的な問題に陥ってしまったね。君の測定にも同じことが言えるよ:問題も、オープンやクローズ、迅速にレスポンスされるように操作されることがあるから、特に今はLLMがあるからね。
VCは、何が正当かなんて気にしないから、VCを騙せるなら市場参加者も騙せるし、VCはそれで利益を得られるんだ。一人のVCが言ってたけど、「ユーザー名に『インド』って入れなければ、もっと資金調達やアップボートがもらえるよ」って。
AIの登場で、これらの「ライフ」イベントはAIよりも簡単に偽造できるようになってるだろうし、スターの偽造とは違って利用規約に反してないからね。
もっと重要なのは、誰がスターをつけたかだよね。彼らはスターを与えるのに選択的なのか、それとも何でもブックマークしてるのか。フォークは、スターをつけるよりも使用状況に近い信号だと思う。
多くのVCは、プロジェクトが信頼できるかどうかを判断するために、魔法のような定量的指標を使うことしか考えてないんだよね。数字がある方が、数字がないよりはずっといい。
ここ3年ほどで何かが変わったわけじゃない限り、この記事はVCとの信頼性を大げさに言い過ぎだと思う。10年前には、私たちが話したほとんどのVCは、GitHubのスターを虚栄心の指標として捨て去ってたよ。
あなたがVCに求めているものと、彼らが求めているものは違うよ。あなたは長期的なソフトウェアの質を示す指標を探しているけど、彼らは短期的に急成長している指標を求めてる。これらはしばしば対立することが多い。
VCが何千ものスターを期待する会話をするのは、ちょっと大きく考えすぎだと思う。実際には、誰かが自分のプロジェクトを良く見せるために20ドル払うことが多いんじゃないかな。履歴書のためとか、見栄のために、これがredditでクリックを得るための後押しになると思ってるんだろうね。もし誰かがプロジェクトや収益の可能性を見ずに、10kスターのプロジェクトに8kの投資を提案しているなら、彼らは無知か、毎年夏に学生プロジェクトに資金を提供しているだけだと思う。偽アカウントがよく私の古いリポジトリにスターを付けて、リアルユーザーのように見せかけるんだ。ちょっと考えれば、例えば1ヶ月で5,000プロジェクトにスターを付けて、他のGitHub活動が全くないようなアカウントは、だいたい怪しいよね。一度、GitHubスポンサーのリングを見つけたことがあって、これはマネーロンダリングか盗まれたクレジットカードのことなんじゃないかな?
人々はスターシステムを「これは信頼できるソフトウェアで、質が良くて多くの人に見られている」という安直な代理として期待してると思う。でも、代理としては完全に失敗してるね。アストロターフィングは別として、スターは人気を保証しないし(相関関係はかなり弱いと思う)、多くの基本的なシステムライブラリはスターが少ない。スターは質も保証しないし、コードを読めることを考えれば、スターは全く意味のない代理に見える。最近はスターを無視して、コードをざっと見て、アーキテクチャと実装の質を評価するようにしてる。そうすると、直接リポジトリの内容を見た後に、あまり「スターが多くない」代替案を選ぶことが結構あった。
コードを読めることを考えれば、スターは全く意味のない代理に見えるよね。3つの異なる選択肢があって、それぞれが10万行のコードだとしたら、「コードを読む」って本当に選択肢になるの?代理が必要だよね。スターは信頼できない情報源だから、あんまり良い代理じゃない。紹介みたいなものがあればずっと良いけど、ネットワークにあまり知識がない場合、スターみたいな代理が唯一の選択肢になっちゃう。
問題ページは、これに関しては以前は良かったよね。人々がどんな問題を抱えているかがわかるから。(今でもそうだけど、エージェントのゴミは役に立たない)
* https://dagster.io/blog/fake-stars (2023) - Dagster、dbt、BigQueryを使った偽GitHubスターのブラックマーケットの追跡 * https://arxiv.org/abs/2412.13459 (2024/2025) - GitHubにおける600万(疑わしい)偽スター:人気コンテスト、スパム、マルウェアの増大するスパイラル
私は、既存のアドホックな標準に対して、ポイントを指し示せる定義を与える小さなサイトを運営してる。努力の一環として、ホームページにその標準に従ったソフトウェアやライブラリのリストを載せてる。最初はほとんど何でも受け入れてたけど、リストが増えるにつれて、ある種の著名性の基準を設けたくなった。具体的には、数日しか経っていない、完全にAI生成の、特に良く作られていないライブラリが提出されたんだ。それをリストに載せることに関して懸念を示したら、その著者は非常に攻撃的で、返信で「いくつスターが必要なの?」って聞いてきた。私は答えなかった。そんなの関係ないから。スターは考慮事項の一つであって、全てではない。リアルなユーザーと、もっと重要なのは本当の著名性が必要なんだ。スターは関係ない。スターは無意味だ。この会話はGitHubで行われて、その後他の開発者がその会話に入ってきて、私の「曖昧な著名性の要件」に対してスター数の定義を設定するように要求してきた。私は設定しないつもり。あえて曖昧にしてるから。指標がターゲットになると、それは良い指標ではなくなるって言うし。ページが長くなりすぎてほしくないし、もしXスター数で全てをリストしたら、確実に何かのマルウェアもリストすることになる。あなたのライブラリをリストする義務はない。失礼なことはやめて。
> 指標が目標になると、それは良い指標ではなくなると言われている。 https://en.wikipedia.org/wiki/Goodhart's_law
こういう記事を読むと、特定の、実行可能な問題があって、ちょっと調整すれば消えちゃうように感じる。でも、実際のシステムは予想以上にひどい。こういう研究は非常に価値があるけど、全てのシグナルチャネルに影響を与える体系的な問題には対処していない。ほとんどのシグナル自体が製品として作られてしまってる。SaaSを作ると、「ジャーナリスト」が新しい「[あなたのカテゴリー]アプリのトップ[現在の年]」にあなたを含められるか聞いてくるけど、1位には5千ドル、2位には3千ドル、みたいな感じでお金を払わなきゃいけない(初めてのやり取りだから1位にはプロモーション割引がある)。「プロモーター」があなたのソーシャルメディアのフォロワーを増やすことを提案してくるけど、これが企業が自社のトップアカウントやGitHubのスターがほとんどボットだと気づかない理由の一つ。あなたのニッチにぴったりの専門家を見つけられると主張する「タレントスカウト」が現れるけど、実際には興味を示すと、LinkedInのようなプラットフォームで一致するキーワードを持つプロフィールをスクレイピングしてスパムするだけで、同時に候補者には彼らが求めている企業と仕事をしていると言う。採用の場面では、明らかに東アジアにいる候補者が、ワシントンD.C.のIPを通じて接続し、一般的なヨーロッパの名前を名乗り、合成されたカメラの背景で、すべての質問に完璧に答え、求人票に挙げた技術に関する経験をすでにCVに書いている(誇張じゃなくて、実際に見たことがある)。もし指標やシグナルが重要なら、すでにそれを偽造するためのエコシステムが構築されていて、偽造することが業務の一部になっている。
結局はもっとお金を稼ぐことに尽きるよね。
最終的には企業の選択だよね。 BS指標を買うかどうか。最近、私たちはリポジトリ内のAIボットの生活を複雑にすることに決めたんだ。 https://archestra.ai/blog/only-responsible-ai、彼らが関わりやすいAIスタートアップを選ぶことを期待してる。
> VCの資金調達パイプラインは、GitHubの人気をトラクションの証拠として扱う。 大きな資本がすべてを腐らせるって、驚くべきことじゃないよね。 それに、グッドハートの法則もまた当てはまる。「指標が目標になると、それは良い指標ではなくなる」。 HNの皆さん、リポジトリの質を素早く評価するために、どんな信頼できる多様なシグナルを使ってる? 私は、メンテナンス状況、年齢、APIのエレガンス、そして多分コミット履歴を見てる。 PS: 記事からの引用: > ユニークな月間コントリビューターの活動を追跡している - 課題、コメント、PR、またはコミットを作成した人。 トップ10,000プロジェクトのうち、250人以上の月間コントリビューターを超えたのは5%未満で、6ヶ月間それを維持できたのはわずか2%。 > [...] 実際の採用と相関する5つの指標を推奨している: パッケージのダウンロード数、課題の質(実際のユーザーからの生産的なエッジケース)、コントリビューターの保持(2回目のPRまでの時間)、コミュニティの議論の深さ、使用状況のテレメトリー。
普通はコードをじっくり読むだけだよ。
ライブラリを使う決断をするのにスターを使ったことはないし、なんで誰かがそれを使うのかも理解できない。私が見るポイントはこれだよ: * 最終コミット日。新しい方がいい * 年齢。古い方が良いけど、まだ更新されているならね。新しいのはあまり良くないけど、コミットが急速でないなら許容できる。 * 課題。数じゃなくて、どう扱われているか、どんな課題が残っているかを見てる。 * コードの一部。誰も使っているライブラリの全コードを評価しているわけじゃない。いくつかチェックすることはできるよ! スターは何を教えてくれるの? それは上記のこと(実際のエンゲージメントや第三者の興味を引く)から生じる間接的な変数か、あるいは詐欺だよね。結局、私が挙げたことを見るのが唯一の方法だと思う。私はいつもスターを「このプロジェクトに戻ってくるつもり」として扱っていて、質の指標とは考えてなかった。何年か前にこの問題が初めて浮上したとき、彼らが質の代替になってしまったことに驚いたけど(振り返ってみれば驚くべきことではなかった)、FTCが厳しく対処してくれることを願ってる。 編集: * コミット履歴: 歴史をざっと見て、何があるかを確認する。どんな変更が行われているか、どのくらいの頻度で。
> ライブラリを使う決断をするのにスターを使ったことはないし、なんで誰かがそれを使うのかも理解できない。 あなたは使ったことがないかもしれないけど、あなたが使っている依存関係の制作者はそうかもしれないから、問題は残るよね。
これを飾り物って呼ぶなら、男たちは飾り物で導かれるんだよ… 理論で男たちを戦わせることができると思う?絶対無理。そんなのは学者が自分の研究室でやることだ。兵士には栄光や名誉、報酬が必要なんだ。https://en.wikiquote.org/wiki/Napoleon
GitHubが生のスターの代わりにPageRankみたいなグラフ理論的な指標を使うのって、意味あるのかな?簡単に言うと、リポジトリは他の重要なリポジトリを持ってるGitHubユーザーにスターやフォークされると重要と見なされるんだよね。計算は高くつくけど、結果として得られるスコアはもっと信頼できると思うんだけど、何か見落としてるかな?
それは良い結果を得るために近づいてる感じがするね。もちろん、全ユーザーをカラムに含めるようなものは、操作される可能性があると思う。自分で「信頼できる仲間」や「foaf」度からセットを選ぶか、もしくは純粋に好みに基づくアプローチよりも、過去の信号を使う方がいいかもね。
GitHubはこれを簡単に取り締まれるよ。各スター提供者に10ドル使って、その後関与したアカウントを全部禁止すればいいんだから。ちょっとしたお金でエコシステムに大きな影響を与えられるよ。
なんでVCが架空のインターネットポイントを基に実際の投資判断をしてるのか、誰か説明してくれない?NFLチームがパス成功率みたいな関連指標じゃなくて、インスタグラムのフォロワー数でクォーターバックをドラフトするようなもんだよ。クリーブランド・ブラウンズならやりかねないけど、真剣なスーパーボウルキャンペーンにはならないよね。VCは投資判断をするのがそんなに怠けてるの?これはZIRPの別の副作用で、リターンを求めてお金が追いかけすぎてるから?次のロケットを見つけるために誰も真剣に探してないの?外から見ると、GitHubのスターに基づいて投資するのは狂気に思える。これが本気の投資方法だとは思えないよ。もしGitHubのスターを基に私のお金を投資するつもりだと言ったら、笑っちゃうし、次に何も面白いことが来ないことに気づいて気まずい沈黙が訪れるだろうね。[0] 私はクリーブランド出身だから、彼らをいじる権利があるんだ。[1] https://en.wikipedia.org/wiki/List_of_Cleveland_Browns_seaso... 彼らの成績は自明だと思う。[2] https://en.wikipedia.org/wiki/Zero_interest_rate_policy