世界を動かす技術を、日本語で。

GitHub Copilotのインタラクションデータ使用ポリシーの更新

概要

  • GitHubは Copilotユーザーのインタラクションデータ をAIモデルの学習に活用開始
  • 2024年4月24日以降、Free, Pro, Pro+ユーザーが対象(オプトアウト可能)
  • Business, Enterpriseユーザーは対象外
  • 収集データには 入力・出力・コードスニペット等 が含まれる
  • オプトアウト済みの設定 はそのまま維持

GitHub Copilotにおけるデータ利用方針の更新

  • 2024年4月24日以降、Copilot Free, Pro, Pro+ユーザーの 入力・出力・コードスニペット・関連コンテキスト などのインタラクションデータをAIモデルの学習に使用開始
  • オプトアウト を希望する場合、 設定>プライバシー から選択可能
  • Copilot BusinessおよびEnterpriseユーザーは本変更の対象外
  • 以前に データ収集を拒否したユーザー は、その設定が維持され、再度の同意がない限りデータは利用されない
  • この方針は 業界標準に則り、モデルの性能向上を目的

データ利用の目的と効果

  • 実際の開発現場からのデータ を活用することで、AIモデルの 精度・安全性・多様性 を向上
  • Microsoft社員のインタラクションデータ 導入により、受け入れ率や多言語対応での性能向上を確認
  • より多様なユースケースに対応するため、 現実のユーザーデータ での学習が重要

収集・活用されるデータ範囲

  • ユーザーが 受け入れた/修正した出力
  • Copilotへの入力 (コードスニペット含む)
  • カーソル周辺のコードコンテキスト
  • コメント・ドキュメント
  • ファイル名・リポジトリ構造・ナビゲーションパターン
  • Copilot機能とのインタラクション (チャット、インライン提案など)
  • 提案へのフィードバック (いいね・よくないねなど)

利用されないデータ

  • Copilot Business/Enterpriseや企業所有リポジトリのインタラクションデータ
  • オプトアウト設定をしたユーザーのデータ
  • イシュー・ディスカッション・プライベートリポジトリの静的データ
    • ただし、Copilot利用中のプライベートリポジトリのコードはサービス提供のため処理される場合あり

データ共有とプライバシー

  • GitHubの関連会社(Microsoft含む)とのみデータ共有
  • 第三者AIモデル提供者や独立サービスプロバイダーとは共有しない
  • プライバシー重視 の姿勢を維持

ユーザーへのメッセージ

  • AI支援開発の未来 には現実の開発者データが不可欠
  • MicrosoftおよびGitHub社員のデータ活用 でモデル改善を推進
  • 参加することで、より良いAIツールの構築に貢献可能
  • 参加を希望しない場合もAI機能は引き続き利用可能
  • FAQやディスカッション で詳細確認可能

Mario Rodriguezについて

  • GitHub Chief Product Officer
  • 20年以上 MicrosoftおよびGitHubで開発者ツールの推進
  • CopilotのAI戦略・製品ライン を統括
  • 教育活動や家族との時間 も大切にしている人物

関連情報

  • GitHubの可用性問題への対応状況
    • 最近の障害と安定化作業についての詳細共有
  • GitHub Docs
    • GitHub活用のための総合情報
  • GitHub Build
    • 世界中の誰もが何でも作れるプラットフォーム
  • カスタマーストーリーやPodcast
    • 現場の声や最新トレンドの紹介

Hackerたちの意見

俺が金払ってるんだから、オプトインにしてほしいわ。マリオ・ロドリゲス(@mariorod)はちょっと考え直した方がいい。いったい何考えてるんだろう…

いったい何考えてるんだろう… @mariorodの公開READMEには、「物語を形作り、私たちの働き方を変える」って書いてあるから、そういうことなんだろうね。

GitHubとAIの終末のおかげで、俺のソフトウェアは今やサーバーのプライベートGitリポジトリに保存されてる。商業アプリで使われるために、どんなボットが俺のコードをトレーニングデータにするのに、コピーレフトライセンスを選ぶ時間なんて無駄だよ。もうオープンソースのコードを作るつもりもないし、まだユーザーがいるプロジェクトはGHに残しておくつもり。オープンソースに本気なら、Codebergに移るべきだね。

たぶん、彼らの利用規約にサービス運営のためのライセンスを与えるっていう抜け道があるからだと思う。それが何を意味するかは分からないけど。

自分のハードウェアでforgejoをセルフホスティングして、ランナーを動かしてるのがめっちゃ楽しい!

つまり、みんなのコードベースを全部保持したいってこと? > このプログラムで使用されるデータは、マイクロソフトを含む企業グループのGitHub関連会社と共有される可能性があります。つまり、マイクロソフトが所有する会社は、Copilotが保存したいすべてのデータにアクセスできるってこと?

4月24日から、オプトアウトしない限り、GitHub CopilotのインタラクションデータをAIモデルのトレーニングに使用します。この更新を確認して、GitHubアカウントの設定で好みを管理してください。今や「GitHubがAIモデルのトレーニングに私のデータを使用することを許可する」はデフォルトで有効になっています。ここでオフにできます: https://github.com/settings/copilot/features ビジネスアカウントでもデフォルトでこれが設定されてるの?そうなら、ほんとに怪しいね。

面白いことに、俺のはデフォルトで無効になってる。

https://github.com/orgs/community/discussions/188488

なんで個人のデータだけ使って、ビジネスや企業を除外してるの? ビジネスやエンタープライズのお客様との契約により、彼らのCopilotのインタラクションデータをモデルのトレーニングに使用することはできません。その約束は守ります。フリープラン、プロプラン、プロ+プランの個人ユーザーは、自分のデータを管理できて、いつでもオプトアウトできます。

ビジネスアカウントでもデフォルトでこれが設定されてるの?もしそうなら、かなり怪しいね。設定されてないみたいだけど、実際にもっと怪しかったのか、それともただ個人ユーザーが損をするのに慣れてるだけなのかな?

確認だけど、Copilot Businessやエンタープライズのお客様のモデルトレーニングにはCopilotのインタラクションデータを使用していません。

うわ、デフォルトでオプトインにしたなんて信じられないし、ブログ記事に無効にするための直接のURLすら載せてないよ。あなたの(すでに役立つ!)指示に追加すると:

  • https://github.com/settings/copilot/features に行く
  • 「プライバシー」セクションに行く
  • 「GitHubが私のデータをAIモデルのトレーニングに使用することを許可する」を見つける
  • 無効に設定する

そうだね、ビジネスユーザーにとってこれがデフォルトでオプトインってのは全然印象良くないよ。クライアントとの間で、私たちが書いたコードはAIのトレーニングには使わないっていうポリシーがあるから、私たちにオプトアウトを期待するのは、セキュリティとプライバシーが求められるビジネス関係としては受け入れられないアプローチだよね。

みんな何を期待してたの?このコミュニティがMicrosoftやスタートアップを信頼してるのが理解できない。典型的な土地の奪い合いだよね。最初はまあまあ良い感じで始めて、人を引きつけて、堀を作ったら、最もひどい方法でみんなから搾り取る。今回はその搾取がこんなに早いのがちょっと異常だね。

このアプローチは、確立された業界の慣行に沿っています。「他の人もやってるから大丈夫」ってね。

実はAnthropicはオプトインだし、これを有効にすると割引もあるんだよね。

GitHub設定の「GitHubがAIモデルのトレーニングに私のデータを使用することを許可する」にスクロールすると、有効化や無効化ができるよ。でも、ほんとに腹立つのは、これをまるでユーザー向けの機能みたいに売り込んでることだよね。 有効 = 機能にアクセスできる 無効 = 機能にアクセスできない まるでデータを無料で渡すのが特典みたいに言ってるのが、ちょっと笑える。

たぶん「特典」ってのは、彼らのモデルがあなたのデータで再トレーニングされて、将来的にちょっとだけ役立つようになるかもしれないってことかな?よくわからんけど。

これを確認しに行ったら、Copilot関連は全部無効になってるのに、使用状況を測る2つのバーのうち、Copilot Chatの使用率がなぜか2%になってる。どういうこと?誰かがAIを売り込もうとしても、これは私の個人アカウントの話だからね。ビジネスアカウントでは使ってるけど(全く別のユーザーアカウント)、個人の時間には使わないようにしてるから、スキルをキープできるんだ。

そういう言い回しにして、みんなが有効にし続けるようにFOMOを作り出そうとしてるんだよね。ダークパターンだし、ちょっとひどいと思う。

この機能のおかげで、君のコーディングスタイルが次のモデルに反映されるんだよ!

それって、ストック機能フラグの言い回しじゃない?

数日前にチェックを外したのに、ページをリロードしたらまたチェックが入ってた。無能かもしれないけど、それは関係ないよね。このレベルの無能さは、悪意と同じくらい罰せられるべきだと思う。

そんなに悪くないよ。二重否定もないし、常に有効かどうか曖昧な「スイッチ」でもないからね。対照的に、GCSバケットを作るときは「公開アクセス防止」を有効にするためにチェックマークを使うんだ。あのモーダルをデザインしたのは誰なんだろう?プライベートデータを公開してるのかどうかを判断するのに、しっかり1分かかるよ。

まあ、彼らはこの変更を隠そうともしてないし、かなりオープンにしてるよね。オプトアウトもすごく簡単だし。

彼らはメールにその設定へのリンクすら載せてなかった。具体的に名前も挙げず、ただ漠然と指し示してるだけ。ダークパターンだね、でもそれがマイクロソフトってやつさ。

GitHubが「企業リポジトリは使わない」っていうのを「無料プランのコパイロットをトレーニングに使う」ってのとどうやって両立させるのか、ちょっと分からないな。ユーザーはプライベートリポジトリの貢献者になれるけど、そのリポジトリのオーナー組織のコパイロット使用ライセンスを持ってない場合もある。そういう場合でも、個人の無料プランのコパイロットはそのリポジトリで使えるんだよね。企業はその状況で、自分たちの知的財産がGHのモデルに吸収されないってどうやって確信できるんだろう?

有料組織のリポジトリの内容でトレーニングはしないよ。ユーザーがCopilot Free、Pro、Pro+のサブスクリプションでそのリポジトリで作業していても関係ない。もしユーザーのGitHubアカウントが有料組織のメンバーか外部コラボレーターであれば、そのインタラクションデータはモデルのトレーニングから除外されるんだ。

簡単に言うと、これは企業の内部ポリシーとその(実行の)欠如の問題だね。この問題は、広い意味での知的財産の侵害の一部で、何人かの人が自分の仕事の文書を喜んでChatGPTの無料プランに放り込んでいるって感じ。

EUではこれの法的根拠は何なの?知的財産を盗む可能性を無視しても、集められた情報には簡単に個人情報が含まれる可能性があるし、同意は「自由に与えられた、特定の、情報に基づいた、明確な」ものでなきゃいけないよね。自由に与えられた同意を得るためには、自発的に与えられなきゃいけない。

実は、GitHubの設定ページにこのオプションがないみたいで、これがアメリカだけに適用されるのか疑問に思ってる。

面白い事実: CopilotにはAPIキーやパスワード、DBの認証情報などの敏感なファイルを無視する方法がないんだよね。だから、IDEを開くときにこれらを全部Microsoftに送信しちゃうんだ。: https://github.com/orgs/community/discussions/11254#discussi...

企業や組織レベルの無視パスを設定したばかりなんだけど。

ちょっとした面白い話なんだけど、Gemini CLIは名前に'AUTH'みたいな文字列が入った環境変数をブロックするんだ。特定の環境変数を許可するための設定オプションが2つあるけど、どっちも機能しない(雰囲気が悪いコーディングだね)。問題を報告しようとしたら、2つの別々のボットが私の問題を拾ってPRを作成したけど、誰も見てくれない。バグはそのままだから、sshエージェントソケットを使ったgitコード署名ができない。唯一の選択肢は、セキュリティが低くて署名されていないgitコミットをすることだけ。さらに、Gemini 3はオープンソースコードのリファクタリングを拒否するんだ。たとえフォークしても、Geminiがあなたの変更が元の開発者の意図に反すると考えたら、コードを書いてくれない。自分ではもっと安全にしていると思っても、Geminiがそう思わなければ、あなたのコードは受け入れられないんだ。

[遅延]