NVIDIA、投機的デコード統一ベンチマーク「SPEED-Bench」公開
出典:Hugging Face
詳細を読む
NVIDIAの研究チームは2026年3月、投機的デコード(SD)を統一的に評価するベンチマーク「SPEED-Bench」を公開しました。SDはドラフトモデルで複数トークンを先読みし、ターゲットモデルが並列検証することで推論を高速化する技術ですが、従来の評価手法は断片的で本番環境を反映していませんでした。
SPEED-Benchは「Qualitative分割」と「Throughput分割」の2つのデータセットで構成されています。Qualitative分割は18のデータソースから11カテゴリ・計880プロンプトを収録し、テキスト埋め込みによる選択アルゴリズムでカテゴリ内の意味的多様性を最大化しています。
Throughput分割は入力長1k〜32kトークンの固定バケットを用意し、各バケットに低・混合・高エントロピーの3難易度で計1,536プロンプトを収録しています。バッチサイズ最大512までの高並行環境で、本番に近いスループット評価が可能です。
評価の結果、SDの受理長はドメインに強く依存することが確認されました。コーディングや数学などの低エントロピー領域では高い受理長を示す一方、ロールプレイや創作文は推測が困難です。また、ネイティブMTPヘッドはEAGLE3より大幅に高い受理長を達成し、ベースモデルとの共同学習の優位性が示されました。
さらに、ランダムトークンを用いた従来のベンチマーク手法は、SD有効時にスループットを約23%過大評価する問題が判明しました。MoEモデルでもエキスパートルーティングが不正確になるため、現実的なデータでの評価が不可欠です。データセットと計測フレームワークはオープンソースで公開されています。