MiniMax、M3モデルで長文推論を16倍高速化

M2の技術的到達点

2300億パラメータのMoE構造採用
98億パラメータのみ活性化し効率確保
全層フルアテンションで推論精度を維持
サブ二次手法は精度劣化で不採用

M3の革新と展望

独自のスパースアテンション機構MSA導入
デコード速度15.6倍の高速化実現
100万トークン長文処理を実用域に
エージェント大規模展開のコスト障壁を解消
詳細を読む

中国AIスタートアップMiniMaxが、次期大規模言語モデル「M3」に搭載する新しいスパースアテンション機構「MiniMax Sparse Attention(MSA)」の技術概要を公開しました。MSAにより、100万トークンの長文コンテキストにおいてデコード速度が従来比15.6倍、プリフィル処理が9.7倍高速化されると報告しています。この成果は、長文処理AIエージェントの大規模展開を経済的に実現可能にするものです。

今回の発表に先立ち、MiniMaxはM2シリーズの詳細な技術レポートHugging Faceで公開しました。M2は総パラメータ数2299億、1トークンあたりの活性化パラメータは98億という効率的なMixture-of-Experts構造を採用しています。開発過程では、スライディングウィンドウアテンションやリニアアテンションなどのサブ二次手法を徹底検証しましたが、128Kコンテキストの複雑なタスクでスコアが90.0から72.0に低下するなど深刻な精度劣化が判明し、全層フルアテンションを維持する判断に至りました。

M3で導入されるMSAは、DeepSeekのMulti-head Latent Attention(MLA)とは異なるアプローチをとります。MLAがキーとバリューを低次元の潜在空間に圧縮するのに対し、MSAは標準的なGrouped Query Attention基盤の上でブロック単位の選択的アテンションを行います。圧縮せず実データ上で処理するため、精度低下やプレフィックスキャッシュの問題を回避できます。

プロダクト面では、MiniMaxは強化学習基盤「Forge」を構築し、エージェント能力の訓練を体系化しています。M2.7はこの基盤から生まれた自己進化型モデルで、自身の学習パイプラインの30〜50%を自律的に管理できます。OpenAIのMLE Bench Liteではメダル率66.6%を達成し、GoogleGemini 3.1 Proに並ぶ水準です。MSAの詳細技術ブログも近日公開予定で、M3が長文AIエージェントの実用化を加速させるか注目されます。