GitHub、5月に9件の障害 AI需要急増で基盤刷新
詳細を読む
GitHubは6月11日、2026年5月に発生した9件の障害をまとめた月次可用性レポートを公開しました。プルリクエストやGitHub Actions、Copilotなど広範なサービスで性能低下が起き、原因の多くがデータベース移行や設定変更に集中したと説明しています。同社はAIを活用した開発需要の急増を背景に、インフラの全面刷新を進めていると強調しました。
今回のレポートで同社が異例なのは、個別障害の説明に先立ち信頼性向上の進捗を共有した点です。GitHubのトラフィックはAI支援型・エージェント型の開発ワークフローによって急速に拡大しており、これに対応するためモノリスの分割やAzureへの移行を進めています。現在、モノリスのトラフィックの40%をAzureから配信し、2月の8%から大きく伸ばしました。4カ月で実効容量を2倍以上にしたといいます。
障害の中で影響が大きかったのが、5月4日のスキーマ移行に起因する障害です。大規模で高頻度アクセスのテーブルに対する移行が、週次ピークの本番トラフィックと重なり、データベースの接続容量を飽和させました。プルリクエストが最も深刻な影響を受け、IssuesやActions、Codespaces、Copilotなど依存サービスにも波及しています。
GitHub Actionsをめぐる障害も目立ちました。5月5日と6日には、ホスト型ランナーの障害が連鎖し、前日の復旧作業が翌日の設定不具合を招くという二次障害が発生しています。さらに5月26日には、自動アカウント審査システムがActionsの認証用サービスアカウントを誤って停止し、新規ジョブが起動できなくなりました。同社は停止対象外とするサービスアカウントの許可リストを導入したと述べています。
上流プロバイダー起因の障害も報告されました。5月28日にはResponses APIの不具合により、GPT-5.2やGPT-5.4などのモデルでエラー率が上昇し、Copilotが影響を受けています。GitHubは影響モデルからトラフィックを退避させて対処し、自動フェイルオーバーの改善を進めるとしました。経営者やエンジニアにとって、AI開発基盤の安定性がいかに事業継続に直結するかを示す事例といえるでしょう。
同社は「可用性、次に容量、最後に機能」という原則を掲げ、ユーザー認証や認可を独立ドメインに分離する作業を完了に近づけています。ステートレスな認証トークンの展開により、トラフィック急増時の負荷増幅を引き起こしていたリクエストごとのDB参照も排除しつつあります。構造的な変更によって障害要因を恒久的に取り除く方針です。