Microsoft、AIエージェント障害診断フレームワークAgentRxを公開

AgentRxの仕組み

実行軌跡を共通形式に正規化
ツールスキーマから制約条件を自動生成
ステップごとに制約違反を監査可能に記録
LLM判定で最初の致命的エラーを特定

ベンチマークと成果

115件の失敗軌跡を手動注釈
9分類の障害タクソノミーを策定
障害箇所特定が23.6%向上
根本原因帰属が22.9%改善

対象ドメインと公開

τ-bench・Flash・Magentic-Oneの3領域
フレームワークとデータセットをOSS公開
詳細を読む

Microsoft Researchは、AIエージェントの障害原因を自動診断するフレームワーク「AgentRx」をオープンソースとして公開しました。併せて115件の失敗軌跡を手動注釈したベンチマークデータセットも提供しています。

現代のAIエージェントは数十ステップに及ぶ長い実行軌跡を持ち、確率的な挙動により再現が困難です。さらにマルチエージェント構成では障害がエージェント間で伝播し、根本原因の特定が極めて難しくなっています。

AgentRxは実行ログを共通形式に正規化した後、ツールスキーマやドメインポリシーから実行可能な制約条件を自動生成します。各ステップでガード条件付きの制約を検証し、違反をエビデンス付きで監査ログに記録する仕組みです。

評価実験では、既存のLLMプロンプティング手法と比較して障害箇所の特定精度が23.6ポイント、根本原因の帰属精度が22.9ポイントそれぞれ絶対値で向上しました。試行錯誤に頼らない体系的なデバッグを実現しています。

ベンチマークτ-bench(API業務)、Flash(インシデント管理)、Magentic-One(汎用マルチエージェント)の3領域を対象とし、計画逸脱やハルシネーションなど9カテゴリの障害分類体系も整備されています。