Sapientが約1500ドルで基盤モデルをゼロから訓練

低コスト訓練の仕組み

階層型再帰モデルで効率化
指示応答ペアのみで訓練
10億パラメータ・400億トークン
GPU16台で1.9日で完了

ベンチマーク性能

MMLU 60.7%で大型モデルに匹敵
訓練トークン数100〜900分の1
推論と知識記憶の分離が鍵

企業向けの展望

独自ドメイン特化の推論エンジン
外部検索との組み合わせ前提
詳細を読む

Sapient Intelligenceの研究チームは、独自のHRM-Text(階層型再帰モデル)アーキテクチャを用いて、わずか約1500ドルで10億パラメータの基盤言語モデルをゼロから訓練したと発表しました。従来、基盤モデルの事前訓練には数百万ドル規模の費用とインターネット規模のデータが必要とされてきましたが、同社はこの常識を覆す結果を示しています。

HRM-Textの核心は、計算を「ゆっくり変化する戦略層」と「素早く変化する実行層」に分離する二層構造にあります。従来のTransformerが生テキストに対して次トークン予測を繰り返すのに対し、HRM-Textは指示と応答のペアのみを訓練データとして使い、タスク完了を目的関数としています。さらに、再帰的な構造で生じる勾配の不安定性を抑えるため、独自の正規化技法「MagicNorm」とウォームアップ手法を導入しました。

ベンチマーク評価では、MMLU 60.7%GSM8K 84.5%、MATH 56.2%を達成しています。これは20億〜70億パラメータ規模のオープンモデルと同等以上の水準です。訓練に使ったトークン数はQwenGemmaLlamaなどの100分の1から900分の1、推定計算量は96分の1から432分の1にとどまります。GPU16台のクラスタで1.9日という短期間で訓練が完了しました。

同社CEOのGuan Wang氏は、企業が直面する課題を「訓練コスト・インフラの重さ・実験サイクルの遅さ」の三重苦と表現しています。HRM-Textは知識の暗記と推論能力を切り離す設計のため、企業は自社データを外部のフロンティアモデルに送ることなく、コンパクトな推論エンジンとして活用できます。外部の検索システムと組み合わせることで、事実情報の取得は別途行う構成が想定されています。

現段階では「ChatGPTの代替にはまだならない」とWang氏自身が認めており、プロダクション利用にはテンプレート設計やアテンションマスクの調整など技術的な作業が必要です。それでも、基盤モデルの訓練コストが1500ドル台に下がるインパクトは大きく、「AIはインフラの問題ではなく戦略の問題になる」と同氏は主張しています。Transformersライブラリでのサポートも始まっており、vLLMやSGLangへの対応も開発中です。