HF、差分同期で1兆パラメータ更新を高速化

差分同期の仕組み

bf16精度で99%の重みが不変
変化要素のみ疎形式で送信
ペイロードが1.2GBから最大35MBに
推論の停止時間を約1秒に短縮

分散学習の実現

Hub Bucketで重みを中継
訓練と推論がクラスタ不要で分離
vLLM拡張で30行の実装
Spacesで完全分散学習を実証
詳細を読む

Hugging Faceは、非同期強化学習における重み同期のボトルネックを解消する「Delta Weight Sync」をTRLライブラリに実装しました。従来、非同期RLでは訓練ステップごとにモデル全体を推論エンジンに転送する必要があり、7Bモデルで14GB、1兆パラメータ規模では約1TBものデータ転送が発生していました。この技術はオープンソースとしてTRLのPR #5417で公開されています。

Delta Weight Syncの核心は、bf16精度における重み更新の数学的特性にあります。bf16の仮数部は7ビットしかなく、RLの学習率で生じる微小な更新の大部分はbf16の丸めに吸収されるため、連続する2ステップ間でおよそ99%の重みがビット単位で同一のままです。この性質を利用し、変化した要素だけをsafetensors形式のスパースファイルとして符号化することで、Qwen3-0.6Bモデルでは1ステップあたりの転送量を1.2GBから20〜35MBへと大幅に削減しました。

アーキテクチャはHub Bucketを介した3ボックス構成を採用しています。訓練ノードがスパースな差分をBucketにアップロードし、vLLMの推論サーバーがそれをダウンロードして適用します。訓練側と推論側が直接通信する必要はなく、共有クラスタもRDMAもVPNも不要です。vLLM側の実装はWeightTransferEngineの拡張としてわずか30行程度で、フォークなしで既存のvLLMに組み込めます。

実証実験では、訓練用GPU、vLLMを動かすHugging Face Space、Wordle環境を動かす別のSpaceという3つの独立したマシンで完全な分散学習を実行しました。いずれもネットワークを共有せず、Hub Bucketのみで接続されています。報酬は順調に上昇し、差分ペイロードは20〜35MBの範囲を維持しました。

Llama-3.1-405Bに適用した場合の試算では、従来のNCCLによる全同期で約8秒かかる推論停止が、差分転送では数秒に短縮され、転送量は約130分の1になると見込まれています。1兆パラメータ規模ではFireworksの実測値で約50倍の削減が示されており、クラウド間をまたぐ分散学習においてオブジェクトストレージ経由の差分同期が唯一の現実的な選択肢になりつつあります。