IBM、AIエージェント評価基盤VAKRAを公開
詳細を読む
IBM Researchは2026年4月15日、AIエージェントの実務的な推論能力とツール使用を評価するベンチマークVAKRAをHugging Faceで公開しました。従来のベンチマークが個別スキルを測定するのに対し、VAKRAは62ドメインにまたがる8000以上のAPIと文書コレクションを用い、エージェントが複数ステップのワークフローを確実に遂行できるかを実行トレース全体で評価します。
VAKRAは4つの能力を段階的に測定します。第1にビジネスインテリジェンスAPIの連鎖、第2にダッシュボードAPIからの正確なツール選択、第3に複数の論理ステップを要する多段推論、第4にAPI呼び出しと文書検索を組み合わせた複合推論です。第4段階ではさらにマルチターン対話やツール使用ポリシーへの準拠も求められます。
評価はウォーターフォール型パイプラインで実施されます。まずポリシー準拠を検証し、次に予測されたツール呼び出しの系列を正解と比較し、最後に最終回答の正確性を判定します。厳密なステップ一致ではなく、ツール応答の情報的等価性を基準とすることで、正当な代替パスも評価できる設計です。
主要モデルの比較では、GPT-OSS-120BがAPI連鎖タスクで他モデルを大差で上回りました。ツールスキーマの理解とパラメータ選択に優れていたことが要因です。一方、ツール選択タスクではGemini-3-flash-previewが全エラーカテゴリで最良の結果を示しました。多段推論ではホップ数の増加に伴い全モデルで性能が低下しています。
特に注目すべきは、ツール使用ポリシーを課した場合の結果です。情報源へのアクセスを制限するポリシーが存在すると、ほぼ全モデルで明確な性能低下が見られました。モデルは制約を理解しつつも推論に組み込めないケースが多く、企業環境での信頼性確保にはまだ課題があることが示されています。