Stanford大、ゼロ演算を省く疎行列チップでAI効率70倍に

2026年04月28日 NVIDIA Meta Apple Cerebras Llama エンジニア

スパース計算の原理

モデルの大半がゼロ値パラメータ

ゼロ演算の省略で高速化

圧縮格納によるメモリ削減

GPUは非構造化スパースに非対応

Onyxチップの成果

CPUの70分の1のエネルギー消費

平均8倍の計算速度

構造化・非構造化の両方に対応

密・疎の両ワークロードを1チップで処理

出典：spectrum.ieee.org

詳細を読む

スタンフォード大学の研究チームが、AIモデル内のゼロ値パラメータを活用する専用チップ「Onyx」を開発しました。大規模言語モデルでは重みや活性値の大半がゼロまたはゼロに近い値であり、この「スパース性」を利用すれば不要な演算を省略できます。Onyxは従来のCPUと比較して平均で消費エネルギーを70分の1に抑え、計算速度を8倍に向上させています。

AIモデルの巨大化が進む中、Metaの最新Llamaは2兆パラメータに達しています。モデルの大型化は性能向上につながる一方、エネルギー消費と処理時間の増大が深刻な課題です。低精度演算や小型モデルの利用といった対策が取られてきましたが、スパース計算はモデルの性能を維持しつつ効率を高める第三の選択肢として注目されています。Cerebrasの研究では、LLMのパラメータの最大70〜80%をゼロに設定しても精度を損なわないことが示されました。

しかし、既存のGPUやCPUはスパース計算に最適化されていません。NVIDIAのGPUは「4要素中2つがゼロ」という構造化スパースにしか対応しておらず、任意の位置にゼロが存在する非構造化スパースでは性能が大きく低下します。CPUはより柔軟ですが、圧縮データの間接参照によるメモリアクセスがボトルネックとなります。Appleは独自チップのプリフェッチャー改良で対応を試みていますが、汎用アーキテクチャの根本的な制約は残ります。

Onyxは粗粒度再構成可能アレイ（CGRA）をベースに設計されており、FPGAの柔軟性とCPUの効率性を両立しています。メモリタイルが圧縮行列を格納し、演算タイルが不要なゼロ演算をすべて省略します。専用コンパイラがソフトウェア命令をCGRA構成に自動変換するため、開発者は疎・密の両方のワークロードを同一チップ上で実行できます。エネルギー遅延積ではIntel Xeon CPUの最大565倍の効率を達成しました。

研究チームは次世代チップの開発を進めており、行列演算だけでなく正規化やソフトマックスなど全演算のスパース対応を目指しています。密・疎アーキテクチャのチップ上での統合効率化や、複数チップでの分散処理にも取り組んでいます。スパースハードウェアの普及は、AI計算の実行コスト・消費電力・環境負荷を大幅に低減する可能性があります。