Cosmos動画生成モデルのLoRA微調整手法を公開

効率的な微調整手法

LoRA・DoRAでアダプタ注入
2Bパラメータモデルを単一GPUで学習可能
rank32で約5000万の学習パラメータ
アダプタ切替で複数ドメイン対応

ロボット動画生成への応用

92本のロボット操作動画で学習
人間の手の幻覚を微調整で解消
指示追従と物理的妥当性が大幅に向上
8基のH100で約2.5時間で学習完了
詳細を読む

NVIDIAHugging Faceは、大規模動画生成モデルCosmos Predict 2.5をLoRAおよびDoRAで効率的に微調整する手法を公開しました。20億パラメータのモデル全体を再学習する代わりに、注意機構やフィードフォワード層に小規模なアダプタモジュールを注入することで、単一のGPUでも微調整が可能になります。ロボット操作の合成動画生成を主な応用先として、92本の実ロボット動画を使った学習手順が示されています。

微調整にはrectified flowの定式化が用いられ、ノイズサンプルからクリーンデータへ線形に輸送する速度をモデルが学習します。VAE、テキストエンコーダ、DiTの基盤重みはすべて凍結され、LoRAアダプタのパラメータのみが更新されます。数値安定性のため、アダプタの重みはfloat32にキャストされ、bf16混合精度で学習が進みます。

評価では、Sampson誤差による幾何的整合性と、Cosmos Reason2をLLM審査員とした物理的妥当性・指示追従性の3指標が用いられました。微調整前のベースモデルでは、ロボットの手が人間の手に置き換わる幻覚や、指定された手の左右が無視される問題が発生していましたが、LoRA・DoRAによる微調整でこれらが解消されました。

rank 8とrank 32の比較では、高ランクが指示追従性を向上させる一方、幾何的整合性や物理的妥当性はランク8でも十分という結果が得られました。これは物理的な事前知識が凍結された基盤モデルに既に含まれており、アダプタはドメイン固有の外観やタスク構造の学習のみを担うためと分析されています。DoRAは低ランクでの学習安定化に有用ですが、rank 32ではLoRAと同等の性能に収束しました。