NVIDIA AI-Qが深層研究ベンチマーク2種で首位を獲得
詳細を読む
NVIDIAは2026年3月12日、自社開発のAIリサーチエージェント「AI-Q」が、深層研究エージェントの主要ベンチマークであるDeepResearch Bench(55.95点)およびDeepResearch Bench II(54.50点)の両方で首位を獲得したと発表しました。
AI-Qはオーケストレーター、プランナー、リサーチャーの3つのエージェントで構成されるマルチエージェントアーキテクチャを採用しています。プランナーがまず情報の全体像を把握し、エビデンスに基づいた調査計画を策定します。リサーチャーは事実収集・因果分析・比較検証・批判的検討・最新動向の5種の専門家を並列に稼働させ、多角的な証拠を収集します。
性能の鍵を握るのは、独自に微調整されたNemotron-3-Super-120B-A12Bモデルです。OpenScholarやResearchQAなど複数のデータセットから約8万件の研究軌跡を生成し、品質判定モデルでフィルタリングした約6.7万件で学習しました。実際のWeb検索結果を含む軌跡データにより、現実のデータに対する検索・統合能力が強化されています。
長時間にわたるエージェント実行の信頼性を確保するため、ツール名の自動修正、推論トークンのリトライ、ツール呼び出し回数の予算管理、レポート構造の検証といったカスタムミドルウェアを実装しています。オプションのアンサンブル機能では、複数の独立した調査パイプラインを並列実行し、各出力を統合することで情報の網羅性を最大化します。
AI-QはNeMo Agent Toolkit上に構築されたオープンソースのブループリントとして公開されており、企業が自社環境で所有・カスタマイズできる設計です。YAML設定によりLLMやツール、エージェントグラフを柔軟に差し替え可能で、透明性とコントロールを維持しながら最先端の研究品質を実現できる点が、企業のAI活用において大きな意義を持ちます。