Hugging FaceがUlyssesシーケンス並列でミリオントークン学習を実現

2026年03月09日 Qwen エコシステム GPU ベンチマークトランスフォーマー Hugging Face

技術の仕組み

アテンションヘッドを複数GPUに分散

All-to-All通信で通信量を1/Nに削減

Ring Attentionより低レイテンシで効率的

FlashAttention 2/3と完全互換

エコシステム統合

AccelerateでParallelismConfig設定のみ

Transformers Trainerが損失集計を自動処理

TRL SFTTrainerでSFT最適化に対応

Liger-Kernelと組み合わせてメモリ節約

ベンチマーク結果

96Kトークンを4枚のH100で学習可能

64K時にスループットが3.7倍向上

8K時はDP=4と同等メモリ消費

出典：Hugging Face

詳細を読む

Hugging Faceは2026年3月、Snowflake AI Researchが開発したArctic Long Sequence Training (ALST)プロトコルの一部であるUlyssesシーケンス並列（SP）をAccelerate・Transformers Trainer・TRL SFTTrainerに統合したことを発表した。

Ulyssesは、トランスフォーマーのアテンション機構が系列長の2乗でメモリ・計算量が増大する課題を解決する手法で、系列をGPU間で分割したうえでアテンションヘッドも並列化し、All-to-All通信を1アテンション層あたり2回行うことで通信量をO(S×H/N)に抑えている。

Ring Attentionと比較すると、Ulyssesの通信量はGPUあたりRing Attentionの1/N倍で済み、全帯域幅を1ステップで活用できるAll-to-All集合通信により低レイテンシを実現している。ただし、ヘッド数がsp_size以上である必要があるという制約がある。

ベンチマークではQwen3-4BをH100 80GB×4枚で学習し、SP=4の構成で最大96Kトークン（66GB）まで安定して学習できることを確認した。64Kトークン時のスループットは1GPU比で3.7倍の13,396トークン/秒を記録し、通信オーバーヘッドは最小限であることが示された。

利用にはdeepspeed>=0.18.1・accelerate>=1.12が必要で、HopperアーキテクチャにはFlashAttention 3、BlackwellにはFlashAttention 4（リリース待ち）の使用が推奨されている。ZeRO Stage 3やLiger-Kernelとの組み合わせでさらなるメモリ削減も可能だ。