IBM、AIエージェント評価基盤VAKRAを公開

VAKRAの設計と特徴

62ドメイン・8000超のAPIで構成
3〜7ステップの推論チェーンを評価
実行トレース全体で正確性を判定

4つの評価能力と課題

API連鎖・ツール選択・多段推論を測定
文書検索との複合推論も対象
ポリシー制約下で全モデルが性能低下
既存モデルの実用信頼性に課題を露呈

主要モデルの比較結果

GPT-OSS-120BがAPI連鎖で最高精度
Gemini-3-flashがツール選択で優位
詳細を読む

IBM Researchは2026年4月15日、AIエージェントの実務的な推論能力とツール使用を評価するベンチマークVAKRAHugging Faceで公開しました。従来のベンチマークが個別スキルを測定するのに対し、VAKRAは62ドメインにまたがる8000以上のAPIと文書コレクションを用い、エージェントが複数ステップのワークフローを確実に遂行できるかを実行トレース全体で評価します。

VAKRAは4つの能力を段階的に測定します。第1にビジネスインテリジェンスAPIの連鎖、第2にダッシュボードAPIからの正確なツール選択、第3に複数の論理ステップを要する多段推論、第4にAPI呼び出しと文書検索を組み合わせた複合推論です。第4段階ではさらにマルチターン対話やツール使用ポリシーへの準拠も求められます。

評価はウォーターフォール型パイプラインで実施されます。まずポリシー準拠を検証し、次に予測されたツール呼び出しの系列を正解と比較し、最後に最終回答の正確性を判定します。厳密なステップ一致ではなく、ツール応答の情報的等価性を基準とすることで、正当な代替パスも評価できる設計です。

主要モデルの比較では、GPT-OSS-120BがAPI連鎖タスクで他モデルを大差で上回りました。ツールスキーマの理解とパラメータ選択に優れていたことが要因です。一方、ツール選択タスクではGemini-3-flash-previewが全エラーカテゴリで最良の結果を示しました。多段推論ではホップ数の増加に伴い全モデルで性能が低下しています。

特に注目すべきは、ツール使用ポリシーを課した場合の結果です。情報源へのアクセスを制限するポリシーが存在すると、ほぼ全モデルで明確な性能低下が見られました。モデルは制約を理解しつつも推論に組み込めないケースが多く、企業環境での信頼性確保にはまだ課題があることが示されています。