Nvidia、LLMメモリを20分の1に圧縮する新技術KVTCを発表

2026年03月17日 NVIDIA Qwen アシスタントワークフロー Llama 推論

KVTCの技術概要

JPEG由来の変換符号化を応用

PCAでKVキャッシュの冗長性を除去

動的計画法で次元別にビット配分を最適化

GPU上でエントロピー符号化を並列実行

20倍圧縮で精度低下1%未満

最初のトークン生成を最大8倍高速化

モデル重み変更不要で既存環境に導入可能

長文脈・マルチターン用途に最適

vLLM互換のDynamoフレームワークに統合予定

詳細を読む

Nvidiaの研究チームは、大規模言語モデルの会話履歴管理に必要なメモリを最大20分の1に圧縮する新技術「KVTC（KV Cache Transform Coding）」を発表しました。モデルの重みを一切変更せずに適用でき、最初のトークン生成までの遅延も最大8倍短縮されます。

LLMがマルチターン会話を処理する際、過去のトークンの数値表現を保持するKVキャッシュが不可欠ですが、長文脈タスクでは数ギガバイトに膨張します。これがGPUメモリを圧迫し、同時ユーザー数やレイテンシの深刻なボトルネックとなっていました。

KVTCはJPEGなどのメディア圧縮で実績のある変換符号化の手法をAIに応用しています。まず主成分分析（PCA）でKVキャッシュの特徴量を重要度順に整列し、動的計画法で各次元に最適なビット数を割り当てた後、NvidiaのnvCOMPライブラリを用いてGPU上で高速にエントロピー符号化を実行します。

Llama 3やQwen 2.5など1.5Bから70Bパラメータの多様なモデルで検証した結果、20倍圧縮時でも精度低下は1ポイント未満にとどまりました。一方、既存手法のKIVIやGEARは5倍圧縮で大幅な精度劣化が発生し、KVTCの優位性が明確に示されています。

NvidiaのAdrian Lancucki氏は、コーディングアシスタントやエージェント推論ワークフロー、反復的RAGが理想的な適用先と述べています。今後KVTCはDynamoフレームワークのKV Block Managerに統合され、vLLMなど主要な推論エンジンとの互換性が確保される予定です。