GitHub、容量30倍増へ計画変更 AI開発急増で障害相次ぐ

2件の障害と原因

マージキューで誤ったコミット発生
658リポジトリ・2092PRに影響
検索基盤が過負荷でUI障害
データ損失はなし

30倍規模への拡張計画

当初10倍を30倍へ上方修正
AIエージェント開発の急増が背景
重要サービスの分離を推進
マルチクラウド移行にも着手
詳細を読む

GitHubのCTOであるVlad Fedorov氏は2026年4月28日、最近発生した2件の可用性障害について公式ブログで状況を報告しました。同社は2025年10月にキャパシティを10倍に増強する計画を開始しましたが、2026年2月までに現行規模の30倍が必要だと判断し、計画を大幅に引き上げています。背景には、2025年12月後半から急加速したAIエージェント型の開発ワークフローがあります。

1件目の障害は4月23日に発生したマージキューの不具合です。スカッシュマージ方式でマージグループに複数のプルリクエストが含まれる場合、以前にマージ済みの変更が意図せず取り消されるという深刻な問題でした。658のリポジトリと2,092のプルリクエストが影響を受けましたが、すべてのコミットはGit上に保持されており、データ損失は発生していません。

2件目は4月27日の検索関連障害です。Elasticsearchクラスターがボットネット攻撃とみられる負荷で過負荷状態となり、プルリクエストやイシュー、プロジェクトなど検索に依存するUI機能が停止しました。Git操作やAPIへの影響はなかったものの、ユーザー体験に大きな支障をもたらしました。同社はこのシステムの単一障害点の排除が未完了だったと認めています。

対策として、GitHubは短期的にはWebhookのMySQL外への移行、セッションキャッシュの再設計、認証フローの最適化によるデータベース負荷の軽減を実施しました。中期的にはGitやGitHub Actionsなどの重要サービスを他のワークロードから分離し、障害の影響範囲を最小化する取り組みを進めています。RubyモノリスからGo言語への移行も加速させています。

長期的には、自社データセンターからパブリッククラウドへの移行に加え、マルチクラウド対応にも着手しました。大規模モノレポの増加にも対応するため、マージキュー操作の最適化や新しいAPI設計にも投資しています。また、透明性向上のためステータスページに稼働率の数値を追加し、大小問わずすべての障害を公開する方針を示しました。