企業IT運用ベンチマークで最先端AIも正答率50%未満

2026年05月27日 Gemini Claude Qwen GPT-5 Opus エンジニア

ITBench-AAの概要

IBM等が企業IT障害診断を評価

Kubernetes障害59問で構成

全最先端モデルが正答率50%未満

SRE・FinOps・CISO領域へ拡張予定

モデル性能とコスト

Claude Opus 4.7が47%で首位

GPT-5.5が46%で僅差の2位

OSSモデルGLM-5.1が40%で健闘

試行回数の多さは精度に直結せず

出典：Hugging Face

詳細を読む

IBMとArtificial Analysisは2026年5月27日、企業向けIT運用タスクでAIモデルの実力を測る初のベンチマーク「ITBench-AA」を公開しました。第1弾はサイト信頼性エンジニアリング（SRE）領域で、Kubernetesの障害対応を題材に59問が用意されています。モデルはログ・トレース・メトリクスなどを読み解き、インシデントの根本原因となるエンティティを特定する必要があります。

評価の結果、最も高いスコアを記録したのはClaude Opus 4.7（Adaptive Reasoning、Max Effort）の47%で、GPT-5.5（xhigh）が46%、Qwen3.7 Maxが42%と続きました。いずれも50%に届いておらず、既存のエージェント向けベンチマークの中で最も飽和度が低い部類に入ります。企業のIT運用自動化においてAIが実用水準に達するにはまだ距離があることが浮き彫りになりました。

興味深い知見として、試行ターン数の多さが精度向上に結びつかない点が挙げられます。GPT-5.5は平均31ターンで46%を達成した一方、Gemini 3.1 Pro Previewは平均83ターンを費やしながら30%にとどまりました。過剰な調査は障害注入メカニズムや付随症状を誤検出として拾いやすく、精度を下げる要因になっています。

コスト効率ではオープンウェイトモデルが存在感を示しています。Gemma 4 31B（Reasoning）はタスクあたり0.14ドルで37%を記録し、2.23ドルのGemini 3.1 Pro Preview（30%）をスコア・コストの両面で上回りました。GLM-5.1（Reasoning）も1.23ドルで40%と、商用モデルに匹敵する性能を低コストで実現しています。首位のClaude Opus 4.7はタスクあたり5.38ドルと最も高額であり、精度とコストのトレードオフが鮮明です。

ITBench-AAは今後、FinOps（財務運用）やCISO（情報セキュリティ）領域にも拡張される予定です。IBMが長年培った企業IT運用の専門知識を基盤としたデータセットと、Artificial Analysisのモデル評価ノウハウを組み合わせた本ベンチマークは、エージェント型AIの企業適用を見極める重要な指標になると期待されています。