マルチエージェントAIのトークン消費を75%削減する新手法

2026年05月15日 Qwen 検索数学 Llama 推論ファインチューニング

テキスト通信の限界

エージェント間テキスト生成が遅延とコスト増の原因

逐次テキスト生成で推論速度が律速

全モデルの重み更新は計算コストが膨大

潜在空間での協調

RecursiveLinkで埋め込み空間を直接伝達

モデル重みは凍結し軽量モジュールのみ学習

同一基盤モデルのメモリ共有が可能

精度と効率の両立

ベースライン比で平均精度8.3%向上

推論速度最大2.4倍、訓練コスト半減

出典：VentureBeat

詳細を読む

イリノイ大学アーバナ・シャンペーン校とスタンフォード大学の研究チームが、マルチエージェントAIシステムの新フレームワーク「RecursiveMAS」を発表しました。従来のマルチエージェントシステムはエージェント間でテキストを生成・共有して連携しますが、これが遅延やトークンコスト増大の主因となっていました。RecursiveMASはテキストの代わりに埋め込み空間（潜在表現）を直接受け渡すことで、この根本的なボトルネックを解消します。

RecursiveMASの中核技術は「RecursiveLink」と呼ばれる軽量な2層モジュールです。各エージェントの最終隠れ層の状態をそのまま次のエージェントの入力埋め込み空間へ変換し、テキストへのデコードを経ずに情報を伝達します。内部用と外部用の2種類があり、異なるモデルアーキテクチャ間でも埋め込み次元を橋渡しできます。基盤モデルの重みは凍結したまま、RecursiveLinkのパラメータ（全体の約0.31%、約1300万パラメータ）のみを学習するため、訓練コストを大幅に抑えられます。

9つのベンチマーク（数学、医療推論、コード生成、検索ベースQA）での評価では、最強のベースラインに対し平均8.3%の精度向上を達成しました。特に推論負荷の高いタスクではTextGradを18.1%上回っています。テキスト生成を省略できるため、エンドツーエンドの推論速度は最大2.4倍に向上し、3ラウンド目のトークン使用量は75.6%削減されました。GPU最大メモリ使用量も最小で、訓練コストはフルファインチューニングの半分以下です。

同一の基盤モデルを使う複数エージェントではバックボーンを共有でき、GPUメモリの重複ロードも不要です。これらの効率改善により、企業のエージェント本番運用で課題となる計算コストの障壁を大きく引き下げます。研究チームはコードと学習済みモデルの重みをApache 2.0ライセンスでオープンソース公開しており、Qwen・Llama-3・Gemma3・Mistralなど主要なオープンモデルでの利用が可能です。