NVIDIA AI-Qが深層研究ベンチマーク2種で首位を獲得

2026年03月12日 NVIDIA 検索 AI活用専門家推論品質保証

技術アーキテクチャ

マルチエージェント構成を採用

計画・調査・統合の3段階で実行

Nemotron 3を独自微調整

約6.7万件の軌跡データで学習

5種の専門サブエージェントが並列調査

アンサンブルで網羅性を向上

ベンチマーク成果

DeepResearch Benchで55.95点

Bench IIでも54.50点で首位

企業向け設計思想

オープンソースで完全公開

YAML設定でLLM・ツール交換可能

カスタムミドルウェアで長時間安定稼働

出典：Hugging Face

詳細を読む

NVIDIAは2026年3月12日、自社開発のAIリサーチエージェント「AI-Q」が、深層研究エージェントの主要ベンチマークであるDeepResearch Bench（55.95点）およびDeepResearch Bench II（54.50点）の両方で首位を獲得したと発表しました。

AI-Qはオーケストレーター、プランナー、リサーチャーの3つのエージェントで構成されるマルチエージェントアーキテクチャを採用しています。プランナーがまず情報の全体像を把握し、エビデンスに基づいた調査計画を策定します。リサーチャーは事実収集・因果分析・比較検証・批判的検討・最新動向の5種の専門家を並列に稼働させ、多角的な証拠を収集します。

性能の鍵を握るのは、独自に微調整されたNemotron-3-Super-120B-A12Bモデルです。OpenScholarやResearchQAなど複数のデータセットから約8万件の研究軌跡を生成し、品質判定モデルでフィルタリングした約6.7万件で学習しました。実際のWeb検索結果を含む軌跡データにより、現実のデータに対する検索・統合能力が強化されています。

長時間にわたるエージェント実行の信頼性を確保するため、ツール名の自動修正、推論トークンのリトライ、ツール呼び出し回数の予算管理、レポート構造の検証といったカスタムミドルウェアを実装しています。オプションのアンサンブル機能では、複数の独立した調査パイプラインを並列実行し、各出力を統合することで情報の網羅性を最大化します。

AI-QはNeMo Agent Toolkit上に構築されたオープンソースのブループリントとして公開されており、企業が自社環境で所有・カスタマイズできる設計です。YAML設定によりLLMやツール、エージェントグラフを柔軟に差し替え可能で、透明性とコントロールを維持しながら最先端の研究品質を実現できる点が、企業のAI活用において大きな意義を持ちます。