NVIDIA、物理AI向け統合基盤モデルCosmos 3を公開

単一モデルで統合

推論と生成の統合モデル
テキスト・映像・音・動作対応
MoTアーキテクチャ採用
従来の4モデルを1つに集約

用途と公開形態

ロボット・自動運転・スマート空間
合成データ生成を支援
16Bと64Bの2サイズ提供
Hugging Faceオープン公開
詳細を読む

NVIDIAは6月1日、物理AI向けの世界基盤モデル「Cosmos 3」を発表しました。COMPUTEXのGTC台北で公開された本モデルは、テキスト・映像・画像・音・動作という複数のモダリティを単一モデルで処理し、ロボットや自動運転車、スマート空間が現実世界を理解・予測・行動するための基盤を提供します。

最大の特徴は、これまで世界生成・制御生成・シーン理解・方策生成という用途ごとに別々のモデルを使い分けていたものを、1つのモデルに統合した点です。Mixture-of-Transformers(MoT)アーキテクチャを採用し、推論を担う自己回帰部分と生成を担う拡散部分が共同注意で連携します。これにより、視覚言語モデル、映像生成、ロボット方策などを構造を変えずに切り替えられます。

物理AIにとって重要なのは、画像や映像だけでなく動作信号を扱える点です。Cosmos 3はロボットの関節角度やグリッパー位置、軌道点といった数値的な動作データを直接生成でき、ピック&プレース作業などの学習に役立ちます。開発者は特定のロボットや作業環境に合わせて追加学習することも可能です。

活用事例も広がっています。NVIDIAのGEARチームは映像動作モデルの開発に、Agile Robotsは産業用ヒューマノイドの方策開発向けデータ生成に本モデルを利用しています。Linker Visionはスマートシティ向けに数千のカメラ映像を解析し、根本原因分析などに活用しています。

公開形態として、16BのNanoと64BのSuperの2サイズが用意され、いずれもHugging Faceでオープンに提供されます。NanoはRTX PRO 6000など作業用GPUで動作し、Superは大規模な合成データ生成や研究向けです。Linux FoundationのOpenMDW 1.1ライセンスのもと、重みやデータセット、コードを単一ライセンスで扱えます。

性能面でも、Cosmos 3はArtificial Analysisのオープン重みリーダーボードで首位に立ち、Physics-IQやR-Benchなど複数の世界生成ベンチマークでトップを記録しています。衝突や稀なエッジケースなど、現実では安全に再現しにくい場面を合成データで補える点が、物理AI開発の加速につながりそうです。