MiniMax、M3モデルで長文推論を16倍高速化

2026年05月27日 Google OpenAI DeepSeek Gemini 推論強化学習

M2の技術的到達点

2300億パラメータのMoE構造採用

98億パラメータのみ活性化し効率確保

全層フルアテンションで推論精度を維持

サブ二次手法は精度劣化で不採用

M3の革新と展望

独自のスパースアテンション機構MSA導入

デコード速度15.6倍の高速化実現

100万トークン長文処理を実用域に

エージェント大規模展開のコスト障壁を解消

出典：VentureBeat

詳細を読む

中国AIスタートアップMiniMaxが、次期大規模言語モデル「M3」に搭載する新しいスパースアテンション機構「MiniMax Sparse Attention（MSA）」の技術概要を公開しました。MSAにより、100万トークンの長文コンテキストにおいてデコード速度が従来比15.6倍、プリフィル処理が9.7倍高速化されると報告しています。この成果は、長文処理AIエージェントの大規模展開を経済的に実現可能にするものです。

今回の発表に先立ち、MiniMaxはM2シリーズの詳細な技術レポートをHugging Faceで公開しました。M2は総パラメータ数2299億、1トークンあたりの活性化パラメータは98億という効率的なMixture-of-Experts構造を採用しています。開発過程では、スライディングウィンドウアテンションやリニアアテンションなどのサブ二次手法を徹底検証しましたが、128Kコンテキストの複雑なタスクでスコアが90.0から72.0に低下するなど深刻な精度劣化が判明し、全層フルアテンションを維持する判断に至りました。

M3で導入されるMSAは、DeepSeekのMulti-head Latent Attention（MLA）とは異なるアプローチをとります。MLAがキーとバリューを低次元の潜在空間に圧縮するのに対し、MSAは標準的なGrouped Query Attention基盤の上でブロック単位の選択的アテンションを行います。圧縮せず実データ上で処理するため、精度低下やプレフィックスキャッシュの問題を回避できます。

プロダクト面では、MiniMaxは強化学習基盤「Forge」を構築し、エージェント能力の訓練を体系化しています。M2.7はこの基盤から生まれた自己進化型モデルで、自身の学習パイプラインの30〜50%を自律的に管理できます。OpenAIのMLE Bench Liteではメダル率66.6%を達成し、GoogleのGemini 3.1 Proに並ぶ水準です。MSAの詳細技術ブログも近日公開予定で、M3が長文AIエージェントの実用化を加速させるか注目されます。