LangChain、AIエージェントの自己修復デプロイ基盤を公開
自己修復の仕組み
トリアージと修正
今後の展望
詳細を読む
LangChainのソフトウェアエンジニアVishnu Suresh氏が、同社のGTMエージェント向けに構築した自己修復デプロイパイプラインの詳細を公開しました。デプロイ後に回帰を自動検知し、原因を特定してPRを作成するまでを人手なしで実行します。
パイプラインはGitHub Actionsで起動し、2つの経路で障害を検知します。1つ目はDockerビルドの失敗検知で、エラーログと直近のgit diffをOpen SWEに渡して即座に修正PRを生成します。ビルド失敗は直近の変更が原因であることがほとんどのため、狭い差分で十分な精度が得られます。
2つ目はデプロイ後60分間のサーバーエラー監視です。過去7日間のエラーログからベースラインを構築し、UUIDやタイムスタンプを正規化してエラーシグネチャごとにグルーピングします。これにより表面的な違いを吸収し、同一エラーを正確に集約します。
ポアソン分布を用いた統計的検定により、デプロイ後のエラー発生率がベースラインから有意に逸脱しているかを判定します。p値0.05未満で回帰の可能性ありとフラグを立て、ベースラインに存在しない新規エラーは繰り返し発生した場合にフラグ対象とします。
統計的検定だけでは相関障害を区別できないため、トリアージエージェントが追加のゲート機構として機能します。変更ファイルをランタイム・設定・テスト・ドキュメント・CIに分類し、非ランタイム変更のみの場合は誤検知として処理をスキップします。
ランタイム変更については、差分の特定行とエラーの間に具体的な因果関係を立証する必要があります。トリアージ結果は判定・信頼度・根拠・該当エラーシグネチャの構造化データとして出力され、Open SWEに焦点を絞った調査指示として渡されます。
今後の改善点として、エラーメッセージのベクトル空間埋め込みによるクラスタリング、重大度に応じたロールバックとフィックスフォワードの自動選択、より広いルックバックウィンドウによる過去デプロイ起因バグの検知などが挙げられています。