ServiceNow、音声AIエージェント評価フレームワークEVAを公開
出典:Hugging Face
詳細を読む
ServiceNowの研究チームは2026年3月24日、音声AIエージェントを包括的に評価するフレームワーク「EVA」を発表しました。コード・データセット・ジャッジプロンプトをGitHubとHugging Faceで公開しています。
EVAはタスクの正確な完了を測るEVA-A(Accuracy)と、対話体験の質を測るEVA-X(Experience)の2つの高次スコアを算出します。従来のフレームワークはこれらを個別に評価していましたが、EVAは両者を統合的に評価する初の手法です。
評価はボット同士のリアルタイム音声対話で行われ、ユーザーシミュレーターが発話し、対象エージェントがツール呼び出しやポリシー遵守を含むタスクを処理します。決定論的なコード指標とLLM審査員による定性評価を組み合わせています。
20種類のカスケード型・音声ネイティブ型システムを評価した結果、正確性と体験の間に一貫したトレードオフが確認されました。タスク完了率の高いエージェントほどユーザー体験が低下する傾向があり、両軸で優位なシステムは存在しませんでした。
特に確認コードやフライト番号など固有名詞の音声認識エラーが、会話全体の破綻につながる主要因と判明しました。今後は多言語対応、騒音環境テスト、感情認識評価、追加ドメインのデータセット拡充が予定されています。