詳細を見る
NVIDIAとHugging Faceは、大規模動画生成モデルCosmos Predict 2.5をLoRAおよびDoRAで効率的に微調整する手法を公開しました。20億パラメータのモデル全体を再学習する代わりに、注意機構やフィードフォワード層に小規模なアダプタモジュールを注入することで、単一のGPUでも微調整が可能になります。ロボット操作の合成動画生成を主な応用先として、92本の実ロボット動画を使った学習手順が示されています。
微調整にはrectified flowの定式化が用いられ、ノイズサンプルからクリーンデータへ線形に輸送する速度をモデルが学習します。VAE、テキストエンコーダ、DiTの基盤重みはすべて凍結され、LoRAアダプタのパラメータのみが更新されます。数値安定性のため、アダプタの重みはfloat32にキャストされ、bf16混合精度で学習が進みます。
評価では、Sampson誤差による幾何的整合性と、Cosmos Reason2をLLM審査員とした物理的妥当性・指示追従性の3指標が用いられました。微調整前のベースモデルでは、ロボットの手が人間の手に置き換わる幻覚や、指定された手の左右が無視される問題が発生していましたが、LoRA・DoRAによる微調整でこれらが解消されました。
rank 8とrank 32の比較では、高ランクが指示追従性を向上させる一方、幾何的整合性や物理的妥当性はランク8でも十分という結果が得られました。これは物理的な事前知識が凍結された基盤モデルに既に含まれており、アダプタはドメイン固有の外観やタスク構造の学習のみを担うためと分析されています。DoRAは低ランクでの学習安定化に有用ですが、rank 32ではLoRAと同等の性能に収束しました。