Microsoft、AIエージェント障害診断フレームワークAgentRxを公開
AgentRxの仕組み
実行軌跡を共通形式に正規化
ツールスキーマから制約条件を自動生成
ステップごとに制約違反を監査可能に記録
LLM判定で最初の致命的エラーを特定
対象ドメインと公開
τ-bench・Flash・Magentic-Oneの3領域
フレームワークとデータセットをOSS公開
出典:Microsoft公式
詳細を読む
Microsoft Researchは、AIエージェントの障害原因を自動診断するフレームワーク「AgentRx」をオープンソースとして公開しました。併せて115件の失敗軌跡を手動注釈したベンチマークデータセットも提供しています。
現代のAIエージェントは数十ステップに及ぶ長い実行軌跡を持ち、確率的な挙動により再現が困難です。さらにマルチエージェント構成では障害がエージェント間で伝播し、根本原因の特定が極めて難しくなっています。
AgentRxは実行ログを共通形式に正規化した後、ツールスキーマやドメインポリシーから実行可能な制約条件を自動生成します。各ステップでガード条件付きの制約を検証し、違反をエビデンス付きで監査ログに記録する仕組みです。
評価実験では、既存のLLMプロンプティング手法と比較して障害箇所の特定精度が23.6ポイント、根本原因の帰属精度が22.9ポイントそれぞれ絶対値で向上しました。試行錯誤に頼らない体系的なデバッグを実現しています。
ベンチマークはτ-bench(API業務)、Flash(インシデント管理)、Magentic-One(汎用マルチエージェント)の3領域を対象とし、計画逸脱やハルシネーションなど9カテゴリの障害分類体系も整備されています。