GPUクロック周波数の最適化でLLM訓練の消費電力を14%削減
詳細を読む
オランダのトゥエンテ大学の研究チームが、LLMの訓練時に消費する電力を最大14%削減できる手法を発表しました。GPUのクロック周波数を計算処理の内容に応じて動的に調整する「動的電圧・周波数スケーリング(DVFS)」と呼ばれる技術を、従来よりも細かい粒度で適用することで、訓練速度をほぼ落とさずに省電力化を達成しています。研究を率いたJeffrey Spaan氏は、シチリアで開催されたComputing Frontiers学会で成果を発表しました。
DVFSは1990年代から知られる技術ですが、LLM訓練への適用はこれまで困難でした。従来の手法はフォワードパスとバックプロパゲーションという大きな単位で周波数を切り替えていたのに対し、今回の研究ではGPUの計算を構成する「カーネル」と呼ばれる最小単位ごとに周波数を最適化します。1つのニューラルネットワーク層は約40のカーネルに分割され、それぞれでコアクロックとメモリクロックの最適な組み合わせを設定することで、大幅な省エネを実現しました。
GPU自体にもDVFSの自動調整機能は備わっていますが、次にどのカーネルが実行されるかを予測できないため、最適な省電力には到達できません。研究チームの手法は事前にワークロードを分析して周波数を決定するため、GPU内蔵の制御を上回る効率を引き出せるのです。
実験はNVIDIA RTX 3080 Ti上でGPT-3-xlの1層を訓練する設定で実施されました。14%の省エネは理論上の最良値であり、周波数切替に要する時間を考慮すると実際の効果はGPUの世代に依存します。NVIDIAのBlackwell世代など新しいGPUでは切替速度が大幅に向上しており、理論値に近い省エネが期待できます。研究チームは今後、任意のワークロードに対して最適な周波数設定を自動で適用するツールの開発を進める方針です。