Google、生成4倍速の拡散型モデルを公開

拡散方式の仕組み

256トークンを並列生成
全位置が相互に注意
誤りを自己修正
Apache 2.0で公開

性能と適用範囲

H100で最大1008トークン毎秒
標準版より品質は低下
ローカル推論で優位
詳細を読む

Googleは6月11日、テキストを拡散方式で生成するオープンソースの実験モデルDiffusionGemmaを公開しました。画像生成で使われる拡散の原理を文章生成に本番規模で適用したもので、GPU上で標準モデルの最大4倍の速度を実現すると説明しています。Gemma 4を基盤にApache 2.0ライセンスで提供され、推論基盤vLLMがネイティブ対応した初の拡散言語モデルとなります。

従来の言語モデルはタイプライターのように左から右へ1トークンずつ生成し、確定した出力を後から修正できません。これに対しDiffusionGemmaは256個のランダムな仮トークンの塊から始め、ブロック全体を何度も並列で精緻化します。各パスで確信度の高い位置を確定し、不確実な位置は次のパスで再評価するため、自己修正と双方向の文脈参照が可能になります。

この構造はコード補完やテンプレート生成など、左から右への生成では失敗しやすい制約付きタスクに構造的に適しています。Googleは数独ソルバーで実証し、ファインチューニング後に成功率80%へ到達。確定ステップ数も48から12へと大幅に減り、早期停止による効率化を示しました。

速度面では、単一のNvidia H100でバッチサイズ1のFP8版が毎秒1008トークン、H200では1288トークンに達し、標準的な自己回帰方式の約6倍にあたります。一方でモデルは26BのMixture of Experts構成で、推論時に動かすのは3.8Bパラメータのみ。量子化すればRTX 4090など消費者向けGPUの18GB VRAMに収まります。

ただし速度の優位は条件付きです。GPUに余力があるローカル推論や低並列の用途で効果を発揮する一方、数百件を同時処理する高スループットのクラウド配信では効果が薄まります。Google自身も出力品質は標準Gemma 4より低いと認め、最高品質が必要な用途には標準版を推奨しています。

経営層やエンジニアにとって、専用GPUでの遅延削減はこれまで小型モデルへの妥協を意味していました。DiffusionGemmaは同じパラメータ規模のまま第三の選択肢を提供し、当日からvLLMで使えます。品質とのトレードオフは現実的ですが、ローカル推論や制約付き生成を扱うチームには試す価値があります。