AIエージェント総合ベンチマークが公開

2026年05月18日 DeepSeek オープンウェイトエージェントベンチマーク Hugging Face

評価フレームワークの設計

6種のベンチマークを統合

品質とコストの両面を計測

モデルでなくシステム全体を評価

統一プロトコルで横断比較を実現

主要な知見と公開物

同一モデルでもエージェント設計で成績が変動

汎用エージェントが専用型に匹敵

OSS重みモデルは先端比18〜29pt差

評価基盤Exgenticを完全公開

出典：Hugging Face

詳細を読む

IBM ResearchとHugging Faceは2026年5月18日、AIエージェントシステムを総合的に比較評価するオープンベンチマーク「Open Agent Leaderboard」を公開しました。従来のベンチマークがモデル単体の性能を測定していたのに対し、本リーダーボードはツール選択・計画立案・エラー回復などを含むエージェントシステム全体を評価対象とし、品質とコストの両面を報告します。

評価にはSWE-Bench Verified（コード修正）、BrowseComp+（Web調査）、AppWorld（アプリ操作）、tau2-Benchの航空・小売・通信（顧客対応）の6種類のベンチマークを採用しています。それぞれ異なるタスク領域を扱うことで、エージェントの汎用性を多角的に測定できる設計です。各ベンチマークは統一プロトコルで標準化され、異なるエージェントが共通のインターフェースで接続できます。

注目すべき発見は、同一モデルでもエージェントアーキテクチャの違いでスコアとコストに大きな差が出る点です。上位3構成は同じモデルを使用しながら、エージェント設計の違いにより異なる結果を示しました。また汎用エージェントがベンチマーク専用にチューニングされたシステムと同等以上の成績を収めるケースも確認されています。

失敗時の挙動にも差があり、失敗した実行は成功時より20〜54%高コストになることが判明しました。ツールの事前絞り込みがモデルを問わず性能を改善する効果も確認されており、エージェント設計が結果を左右する要因として存在感を増しています。

リーダーボード本体に加え、評価の再現と実行を可能にするフレームワーク「Exgentic」、手法と分析を記述した論文がすべてオープンソースで公開されています。オープンウェイトモデル（DeepSeek V3.2、Kimi K2.5）の結果も追加されましたが、フロンティア閉鎖モデルとの平均差は18〜29ポイントと報告されています。コミュニティからの新エージェント・ベンチマーク・モデルの追加投稿を受け付けています。