ハクソク

世界を動かす技術を、日本語で。

複数のGitHubサービスに関するインシデント

概要

  • Webhooks、Actions、Copilotに関する障害発生
  • 原因特定および段階的な復旧の経緯
  • 完全復旧と今後の詳細な原因分析予告
  • 各サービスの状況変化のタイムライン
  • 障害対応の透明性とユーザーへの感謝

2026年4月23日の障害対応報告

  • 16:12 UTC
    CopilotおよびWebhooksの可用性低下報告の調査開始

  • 16:19 UTC
    複数サービスの利用不可状況を引き続き調査

  • 16:34 UTC
    Actionsのパフォーマンス低下を確認、調査継続

  • 16:52 UTC
    根本的な問題を特定し、緩和策の実施作業を開始

  • 17:03 UTC
    ActionsおよびCopilotへの影響を緩和、安定性監視を継続

  • 17:04 UTC
    多くのサービスで緩和が完了し、残りのサービスの検証を実施

  • 17:10 UTC
    Webhooksの正常稼働を確認

  • 17:30 UTC
    インシデントの完全解決を発表
    詳細な原因分析(Root Cause Analysis)の後日公開を予告
    ユーザーへの
    感謝の意
    を表明

今後の対応とユーザーへのメッセージ

  • 詳細な原因分析レポートの公開予定
  • 障害発生時の迅速な情報共有と透明性の維持
  • 利用者への謝意と今後の再発防止への取り組み

Hackerたちの意見

しばらく前にGitLabに移ったんだけど、セルフホスティングのCIランナーにお金を払わなくて済むのは、まじで新しい自由を感じるよ。
もし「二つの9」の基準を下回ったら、すごいことになるね。90日間のローリング期間で、さらに約16時間のダウンタイムが必要になると思う。
https://mrshu.github.io/github-statuses/によると、彼らの合計稼働率は1つの9にも満たないみたい。2つの9なんてとんでもない。
この調子だと、GitHubは「8つの8」を目指してるね。
最近、自宅でいろいろをセルフホスティングに移すことにハマってるんだ。昨日、やっと自宅でForgejoのインスタンスを立ち上げたよ。Linux、Windows(VM経由)、macOS(Mac Mini経由)のCI/CD用のランナー/ワーカーも揃って、すべてが自宅で動くようになった。今までソースコードとActionsがGitHubにあって、インフラはローカルにあったから、これは本当に初めての体験だね。移行を終えた翌日に、自分のセルフホスティングの選択が正しかったと感じたのは、すごく嬉しい気持ちだった。普通はここにたどり着くのに1、2ヶ月かかるから。
フォージを自宅に移したんだけど、コンテナをまとめるのにちょっとストレスがあったけど、Forgejoのセットアップはほぼ楽だったよ。ただ、いいバックアップソリューションが必要だね。それが今のところ足りないところ。
Forgejoで見つけた唯一の問題は、細かい権限設定ができないことと、アクションの呼び出しを取得するためのAPIがないことだね。アクションログのAPIエンドポイントは、Giteaにはあるみたいだよ。
ホームラボのアイデアは魅力的なんだけど、実際に作り始めるとすぐに飽きちゃうんだよね。仕事で壊れたシステムを直してるのに、自分のシステム管理までやりたくないし。クリスマスに買ったミニフォーラムがデスクに置いてあるけど、まだ電源も入れてないよ。
自分用とインディーのスタートアップ目的でForgejoをセルフホスティングしてるけど、まあまあ気に入ってる。ただ、それだとGitHubの大事な目的の一つ、つまり就職活動のためのアピールが欠けちゃうんだよね。Leetcodeを暗記したり、プログラマーの面接のために練習するのと同じように、ただのパフォーマンス的なチェックボックスみたいなもん。GitHubでアクティブに見えないと(CodebergやGitLab、他のプラットフォームでもなく)、ソフトウェアエンジニアの仕事について単純な考えしか持ってない人たちから、「お前、マジでやってるの?」って感じで多くの求人から却下されちゃうよ。
最近これをやったんだけど、GitHubに比べてActionsがめっちゃ速いことに驚いた!それはさておき、Mac MiniでLinuxとmacOSをセットアップしたんだけど、WindowsのVMの設定がちょっと面倒そうだった。ここでデプロイプロセスを簡単にする方法は見つけられなかった?
不安定さは別として、GitHubにはいくつか awkward で annoying な点や機能が欠けてるところがあって、自分のを作るのに1ヶ月かかったよ。これからもっとこういうのが増えてくると思う。
セルフホスティングは正しい解決策だった。6年前にやってたら、GitHubよりも稼働率が良かっただろうね。[0] https://news.ycombinator.com/item?id=22867803
自分のRaspberry(とOrangePi)はGitHubよりも稼働率がいいし、もしダウンしたら電源やインターネットが切れて、あんまり仕事もできなくなるからね。
自分でホスティングを始めると、実際の「現代的な」ウェブがどれだけ遅いかがわかるよね。俺はNUC一台でForgejoを他の色々とProxmoxでホストしてるけど、ページの読み込みは6msだよ!Immichはそこまで速くはないけど、Googleフォトよりは全然速い。
しばらく自分のプライベートなForgejoインスタンスを運営してるんだけど、そこで自分のプライベートなサイドプロジェクトとかを全部ホストしてるんだ。GitHubよりもずっと快適だよ、90%以上の稼働率があるからね。それ以外はUIもほとんど同じだし。最近GitHub関連で抱えてる問題の多さは本当に異常だよ。サイトをブラウジングするだけでも、遅い読み込みで完全に止まっちゃうこともあるし。
心配しないで、ステータスページには100%動いてるって書いてあるよ - 緑色で、すべて良好。静的ページにはアクセスできないけどね。
https://mrshu.github.io/github-statuses/によると、稼働率は88.15%まで落ちてるみたい。個々のコンポーネントの稼働率を考慮しても、最高で99.78%だから、二つの9って感じ。
マイクロソフトのAIがすごいことになってるね。セルフホスティングやLinux好きには特に。
彼らがAzureに移行することと何か関係があるのかな。 https://thenewstack.io/github-will-prioritize-migrating-to-a...
うちはかなり基本的なニーズ、つまりgitリポジトリとアクションだけだから、ちょっとしたダウンタイムはあまり影響しないんだ。でも、今は他の選択肢を探してるところ。あと、SourceHutのサーバーが代替を求めて叩かれてるみたいで、https://sr.ht/ がダウンしてるよ。(編集:これを書いたときはダウンしてたけど、今は復旧してる。)
tangled.org かな?
今日は3件のインシデントがあって、どれも1時間以上続いたけど、全体的には「ダウンタイムなし」で緑の表示になってる。過去のインシデントと比べても、赤いバーが表示されてる日と特に変わらない気がするけど、過去のは数時間続いてたし。緑のバーって一体何を意味してるの?人が文句を言うと遡って非緑に変わったりするのかな?今のところ、過去の緑の日にはマウスオーバーで表示されるインシデントが全くないけど、今日は複数あるから、マウスオーバーの情報が「忘れられてる」か、全てのインシデントが非緑になって、その日のうちに誰にも知らせないってことなのかな。どちらにしても、意図的に誤解を招くように見える。
今日はもう一つひどいインシデントがあったよね: https://www.githubstatus.com/incidents/zsg1lk7w13cf > 「スカッシュマージやリベースを使ったマージキューで発生した回帰を解決しました。この設定でマージキューを使用していると、2026年4月23日16:05-20:43 UTCの間に、一部のプルリクエストが誤ってマージされてしまった可能性があります。この期間中に、デフォルトブランチで約8つのコミットが完全に元に戻されました。こんなひどいGitHubのインシデントは見たことがない。」
ダウンタイムはまだ理解できるけど、デフォルトブランチでコミットを黙って戻すのは全く別の話だよね。
ここでも似たような感じだね。マージコンフリクトを防ぐはずのツールが、メインラインブランチにめちゃくちゃなコミットを作ってたのはちょっと皮肉だよね。
ほんとこれ、うちもたくさんのリポジトリでPRが戻されたよ。ダウンタイムはまだ理解できるけど、PRを戻すのは別のレベルの失敗だよね。
これらのダウンは、実際にどれだけローカルのレジリエンスチームが構築したかの良いテストにもなるね。俺の予想では、大半の会社はGitHubに依存しすぎてると思う。
これらのダウンでGitHubは何か大きなビジネスを失ってるのかな?業界としては、長い間、信頼性とブランド価値がビジネスにとって重要だって言ってたけど、最近はあまり気にされてないように見える。俺の認識が間違ってたら教えてほしい。
彼らは十分に根付いているから、ビジネスコストとして書き捨てられてるんだよね。大企業は内部インスタンスを持ってるから「遮断」されてるけど、他の企業はそこまで重要じゃなくて、内部ソリューションを作るリソースがあるか、移動できるんだ。