概要
- クラウドサービスの 障害頻発 が深刻化
- GitHub のサービス停止が続発
- サービス稼働率の 可視化が困難
- エンタープライズ顧客向けSLA の現状
- ダウンタイムへの 備えの重要性
クラウドサービスの障害頻発とGitHubの現状
- ほぼ 毎日のように発生するクラウドサービスの障害
- 「 Five nines」(99.999%稼働)どころか「 One nine」(90%稼働)すら達成困難な現状
- GitHub では2月9日に複数のサービス(Actions、Pull requests、Notifications、Copilot)で障害発生
- 1554 UTCに「一部GitHubサービス」で問題発生を公式認知
- 通知遅延が最大 50分、1757 UTC時点で 30分 に短縮
- 1929 UTCに「復旧」を発表
- Copilot の障害も発生
- 2月9日1629 UTCから2月10日0957 UTCまで、 Copilotのポリシー伝播問題 が一部ユーザーで発生
- 新たに有効化したモデルが 利用不可 になるケース
- GitHubは ステータスページの仕様変更 により、過去90日間のサービス状況や全体稼働率の把握が困難に
稼働率の可視化と信頼性への懸念
- 非公式なパブリックステータスフィード から再構成された情報により、GitHubの 稼働率が2025年に一時90%を下回った ことが判明
- Five nines (99.999%稼働)が理想だが、 90%維持すら困難なベンダーも存在
- エンタープライズ向けSLA では99.9%稼働を明記
- ただし全ユーザーには 保証されていない
- サービスの不安定さ はGitHubだけの問題ではなく、クラウド全体の課題
ダウンタイム対策の必要性
- GitHub利用者の苦労 は、 ダウンタイム対策の重要性 を強調
- 稼働率の高さだけでなく、 障害発生時の対応計画 が不可欠
- クラウドサービス選定時のリスク評価 の必要性