Nvidia、推論特化チップGroq 3 LPUを発表

2026年03月16日 NVIDIA Groq Cerebras AWS 推論半導体

Groq 3の技術的特徴

SRAM内蔵で超低遅延実現

メモリ帯域150TB/sでGPUの7倍

線形データフローで処理を簡素化

推論時代の到来

Groqを200億ドルで買収し技術統合

推論特化チップのスタートアップが急増

AWSもCerebrasと推論システム構築

推論分離アーキテクチャ

プリフィルとデコードの分離処理

Groq 3 LPXトレイでGPUとLPU統合

出典：spectrum.ieee.org

詳細を読む

Nvidiaは米サンノゼで開催されたGTC 2026において、AI推論に特化した新チップGroq 3 LPUを発表しました。同社がスタートアップ Groqから200億ドルで技術ライセンスを取得し、わずか2カ月半で製品化したものです。

Jensen Huang CEOは「AIがついに生産的な仕事をできるようになり、推論の転換点が到来した」と宣言しました。学習と推論では計算要件が根本的に異なり、推論では低遅延が最も重要とされています。思考型・推論型モデルでは出力前に何度も推論が実行されるためです。

Groq 3 LPUの核心技術は、プロセッサ内部にSRAMメモリを直接統合した設計にあります。従来のGPUがチップ外のHBMにアクセスする必要があるのに対し、データがSRAMを直線的に通過するため、推論に必要な極めて低いレイテンシを実現します。メモリ帯域は150TB/sで、Rubin GPUの22TB/sの約7倍です。

推論特化チップ市場ではD-matrix、Etched、Cerebrasなど多数のスタートアップが独自アプローチを展開しています。AWSはCerebrasの第3世代チップと自社Traniumを組み合わせた推論システムのデータセンター展開を発表しました。推論を「プリフィル」と「デコード」に分離する技術が注目されています。

Nvidiaも推論分離を活用する新コンピュートトレイGroq 3 LPXを発表しました。8基のGroq 3 LPUとVera Rubin GPUを搭載し、計算集約的な処理はGPUが、最終段階の高速デコードはLPUが担います。Huang氏は「すでに量産段階にある」と述べ、推論市場の急速な拡大を示しました。