NVIDIA主導で医療ロボット初の大規模オープンデータセット公開

データセットと規模

778時間医療ロボットデータ
手術・超音波・内視鏡を網羅
35組織が国際共同構築
CC-BY-4.0で完全公開

基盤AIモデル2種

GR00T-H:手術用VLAモデル
縫合タスクの端到端実行を実証
Cosmos-H:手術シミュレータ
実機2日分を40分で再現
詳細を読む

NVIDIAとジョンズ・ホプキンス大学、ミュンヘン工科大学らが主導する国際コミュニティが、医療ロボティクス分野初の大規模オープンデータセット「Open-H-Embodiment」を公開しました。35組織が参加し、778時間分のCC-BY-4.0ライセンスデータを提供しています。

データセットは手術ロボティクスを中心に、超音波検査や大腸内視鏡の自律制御データも含みます。シミュレーション、ベンチトップ訓練、実臨床手術にまたがり、CMR SurgicalやRob Surgicalなどの商用ロボットおよびdVRK、Frankaなどの研究用ロボットのデータを収録しています。

同時に公開されたGR00T-Hは、NVIDIAのVision-Language-Actionモデルを手術ロボット向けに特化させた初のポリシーモデルです。約600時間のデータで訓練され、SutureBottベンチマーク端到端の縫合タスクを完遂する能力を実証しました。異なるロボット間の運動学的差異を吸収する独自の設計が特徴です。

Cosmos-H-Surgical-Simulatorは、運動指令から物理的に妥当な手術映像を生成するワールド基盤モデルです。従来のシミュレータでは再現困難な軟組織変形や反射、出血を暗黙的に学習します。実機で2日かかる600回のロールアウトをわずか40分で完了でき、データ拡張にも活用可能です。

次期バージョンでは、意図・結果・失敗モードを注釈した推論対応データへの拡張を目指しています。手術ロボットが状況を説明し、計画を立て、長時間の手術に適応できる推論能力付き自律制御の実現が目標です。データセットとモデルはHugging FaceおよびGitHubで公開されており、コミュニティへの参加を呼びかけています。