GitHubの稼働状況に関する最新情報
7時間前原文(github.blog)
概要
GitHubは最近2件の重大なインシデントを受け、可用性と信頼性の向上に注力。
10倍規模のキャパシティ増強計画を実施し、将来的には30倍のスケール対応を目指す。
分散システム設計や重要サービスの隔離、シングルポイント障害の排除を進行中。
直近のインシデントの詳細と再発防止策、透明性向上への取り組みを説明。
エンジニアリング責任者Vladimir Fedorovによるコミットメント表明。
GitHubの可用性と信頼性向上に向けた現状報告
- 直近2件のインシデント発生による影響と謝罪
- 2025年10月から10倍キャパシティ増強計画を実行開始
- 2026年2月時点で30倍規模の設計が必要と判断
- ソフトウェア開発手法の急速な変化
- agentic development workflowsの急増
- リポジトリ作成数・プルリクエスト・API利用・自動化・大規模リポジトリ対応の急成長
- 複数システムへの同時負荷増大による複雑なスケーリング課題
- 小さな非効率が全体に波及するリスク
- 最優先事項:可用性>キャパシティ>新機能
- 不要な処理削減・キャッシュ最適化・重要サービスの隔離・単一障害点の排除
- 分散システム設計の推進
- 隠れた依存関係の削減
- 障害範囲(blast radius)の最小化
- サブシステム障害時の優雅な劣化(graceful degradation)の実現
直近の取り組みと技術的対応
- 短期対応
- ボトルネックの早期解消(Webhooksバックエンド移行、ユーザーセッションキャッシュ再設計、認証・認可フローの見直し)
- Azure移行によるコンピュートリソース増強
- 重要サービスの隔離
- gitやGitHub Actionsの他ワークロードからの分離
- 依存関係・トラフィック階層の分析
- RubyモノリスからGoへの移行加速
- マルチクラウド体制の準備
- レジリエンス・低レイテンシ・柔軟性の確保
- 大規模モノレポ(monorepo)対応強化
- gitシステム・プルリクエスト体験の最適化
- マージキュー操作の最適化(1日数千プルリク対応)
直近インシデントの詳細
- 4月23日 マージキューインシデント
- プルリクエストのマージ処理でリグレッション発生
- squash merge方式利用時、複数プルリクが同時マージされると誤ったマージコミット生成
- 658リポジトリ・2,092プルリクが影響
- データ損失なし、Gitコミットは全て保持
- 影響ブランチの状態が不正となり、自動修復が困難なケースも
- 原因分析とプロセス改善を実施
- 4月27日 Elasticsearchサブシステム障害
- 検索基盤が過負荷(ボットネット攻撃の可能性)
- 検索結果が返らないUI障害発生
- データ損失・Git操作・APIへの影響はなし
- シングルポイント障害の隔離未完了が原因
- blast radius分析による再発防止策を進行中
透明性向上への取り組み
- GitHubステータスページの更新
- 可用性指標の公開
- すべてのインシデントのステータス化
- 規模を問わず状況を明確に共有
- インシデント分類・報告プロセスの改善
- 顧客からのフィードバックやシグナル共有方法の強化
GitHubのコミットメント
- 開発者支援・オープンで拡張性あるプラットフォームの提供
- 信頼性・レジリエンス・スケーラビリティの継続的向上
- 透明性あるコミュニケーションの徹底
- 全ての問い合わせ・フィードバックへの真摯な対応
CTO Vladimir Fedorovの紹介
- GitHub Chief Technology Officer
- エンジニアリングリーダーシップとイノベーションで数十年の経験
- UserClouds共同創業者(データガバナンス・プライバシー分野)
- Facebook(現Meta)で12年、2,000人超のエンジニア組織を統括
- Microsoft出身、CaltechでBS/MS取得
- Codepath.org理事、AIネイティブ世代の育成に尽力
- ベイエリア在住、家族とアウトドア・ウォータースポーツを楽しむ
参考リンク
- GitHub Docs:GitHubの使い方を網羅
- GitHub Build:誰でも何でも構築できるプラットフォーム
- Customer stories:GitHubを活用する企業・エンジニアチームの事例
- The GitHub Podcast:オープンソース開発者コミュニティの最新トピック紹介