ServiceNow、企業向け音声AIの評価基盤EVA-Bench 2.0を公開

3領域121ツールに拡張

航空・IT・医療HRの3領域をカバー
213シナリオで約4倍に拡大
121ツールによる実務的評価
GPT-5.4等3モデルで解決可能性を検証

評価設計の特徴

音声通話を前提としたシナリオ設計
認証フロー失敗の再現性を重視
敵対的シナリオも含む多様な構成
多言語対応の拡張を予告
詳細を読む

ServiceNowは2026年6月4日、企業向け音声AIエージェントを評価するためのベンチマーク「EVA-Bench Data 2.0」をオープンソースで公開しました。航空カスタマーサービス、企業ITサービス管理、医療人事サービスの3領域にわたり、121のツールと213の評価シナリオを収録しています。初版から約4倍のシナリオ拡大となります。

音声エージェントの失敗はドメイン固有であるという課題意識がこのベンチマークの出発点です。航空業界で確認コードを正確に処理できるシステムでも、医療HR領域の複雑なポリシー対応では失敗することがあります。EVA-Bench 2.0は、各領域の実際の業務フローに基づいたシナリオを設計し、単一意図・複数意図・敵対的呼び出しの3タイプを網羅しています。

データの信頼性確保にも注力しています。すべてのシナリオは、OpenAI GPT-5.4、Google Gemini 3.1 Pro、Anthropic Claude Opus 4.6の3つのフロンティアモデルで解決可能であることを検証済みです。シナリオ生成にはグラフベースの合成データパイプライン「SyGra」を使用し、ユーザー目標・初期データベース・期待される最終状態を一貫して生成することで再現性を担保しています。

今後は英語以外の多言語対応も予定しています。名前や地名、電話番号をローカライズし、フランス語など各言語での評価を可能にする計画です。データセット、評価フレームワーク、リーダーボードはすべてMITライセンスでHugging FaceおよびGitHubから利用できます。