[論文レビュー] HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes
HUMANISEは language descriptions を伴う19.6kのモーションシーケンスを643の室内シーンで大規模に合成するデータセットを導入し、 scene-and-language conditioned generative model (cVAE) を用いて、 diverse かつ semantically grounded な3Dヒューマンモーションを生成します。
Learning to generate diverse scene-aware and goal-oriented human motions in 3D scenes remains challenging due to the mediocre characteristics of the existing datasets on Human-Scene Interaction (HSI); they only have limited scale/quality and lack semantics. To fill in the gap, we propose a large-scale and semantic-rich synthetic HSI dataset, denoted as HUMANISE, by aligning the captured human motion sequences with various 3D indoor scenes. We automatically annotate the aligned motions with language descriptions that depict the action and the unique interacting objects in the scene; e.g., sit on the armchair near the desk. HUMANISE thus enables a new generation task, language-conditioned human motion generation in 3D scenes. The proposed task is challenging as it requires joint modeling of the 3D scene, human motion, and natural language. To tackle this task, we present a novel scene-and-language conditioned generative model that can produce 3D human motions of the desirable action interacting with the specified objects. Our experiments demonstrate that our model generates diverse and semantically consistent human motions in 3D scenes.
研究の動機と目的
- 3Dシーン内で指示を意識したモーション生成を可能にするための大規模で意味論的に豊かなヒューマン-シーン相互作用データの必要性を動機づける。
- AMASSモーションとScanNetシーンを整列させ、言語説明で自動注釈を付与した合成データセット(HUMANISE)を作成する。
- 3Dシーンにおける言語条件付きヒューマンモーション生成の問題を定義し、取り組む。
- 多様で grounded なモーションを生成するための条件付きVAEベースの scene-and-language conditioned generative model を提案する。
- ベースラインより改善を示し、HSIタスクへの潜在的な下流効果を示す。
提案手法
- cVAEフレームワーク内で scene-language 条件付きのジョイント生成モデルを構築し、p(Θ1:T | S, L1:D) をモデル化する。
- 3Dシーンを Point Transformer で、言語を BERT でエンコードし、自己注意メカニズムで統合して条件付き埋め込み zc を得る。
- モーションを双方向GRUでエンコードし、z のガウスパラメータを予測し、Transformerデコーダで SMPL-X ボディパラメータへデコードする。
- 再構成損失、KLダイバージェンス、オブジェクト grounding (L_o) およびアクション特異生成 (L_a) の補助損失を用いる。
- 2つの補助タスクを適用:対象オブジェクトの中心位置の回帰とアクションの分類を行い、 grounding とアクション忠実度を向上させる。
実験結果
リサーチクエスチョン
- RQ1大規模で意味論的に豊かな合成データセットは、シーン内の特定のオブジェクトと相互作用する3Dヒューマンモーションの言語条件付き生成を可能にするか。
- RQ2補助 grounding タスクを備えた scene-and-language conditioning cVAE は、言語とシーンの制約に整合する意味論的に正確で物理的に妥当なモーションを生成できるか。
- RQ3 grounding および action 補助損失は、生成モーションにおけるオブジェクト grounding の正確さとアクション忠実度にどう影響するか。
- RQ4 提案手法は、生成以外の下流の Human-Scene Interaction タスクにとって有益か。
主な発見
| Model | translation | orientation | pose | MPJPE | MPVPE | goal dist. | APD | quality score | action score |
|---|---|---|---|---|---|---|---|---|---|
| sit | 5.17 | 3.19 | 1.77 | 113.28 | 112.43 | 0.903 | 10.12 | 2.37 ± 0.85 | 3.79 ± 1.17 |
| stand up | 5.63 | 3.43 | 1.69 | 126.05 | 124.84 | 0.802 | 9.57 | 2.83 ± 1.23 | 4.20 ± 0.94 |
| lie down | 6.46 | 3.09 | 0.76 | 136.87 | 136.20 | 0.196 | 9.18 | 2.31 ± 1.08 | 2.85 ± 1.31 |
| walk | 5.84 | 2.80 | 1.85 | 125.05 | 123.88 | 1.370 | 12.83 | 2.91 ± 1.27 | 3.88 ± 1.26 |
| w/o self-att. | 5.72 | 2.65 | 1.85 | 122.19 | 120.81 | 1.500 | 13.28 | 2.88 ± 1.14 | 3.80 ± 1.09 |
| PointNet++ Enc. | 5.81 | 2.64 | 1.81 | 124.67 | 123.69 | 1.444 | 12.61 | 2.80 ± 1.35 | 3.75 ± 1.27 |
| all actions | 4.20 | 2.91 | 1.96 | 98.01 | 96.53 | 1.008 | 11.83 | 2.57 ± 1.20 | 3.59 ± 1.38 |
| w/o L_o | 4.20 | 2.89 | 1.93 | 98.15 | 96.69 | 1.383 | 15.09 | 2.42 ± 1.21 | 3.57 ± 1.38 |
| w/o L_a | 4.23 | 2.91 | 1.95 | 98.67 | 97.11 | 1.135 | 12.66 | 2.17 ± 1.04 | 2.29 ± 1.43 |
| w/o aux. loss | 4.28 | 2.99 | 1.92 | 99.30 | 97.80 | 1.361 | 15.18 | 1.97 ± 0.98 | 2.44 ± 1.38 |
- HUMANISEは、3Dシーンと言語説明に条件付けられた多様で意味論的一貫性のあるモーション生成を可能にする。
- 補助 grounding タスクは、grounding(目標距離)とアクションの正確さを、アクション非依存 setting で改善する。
- シーンと語情報の自己注意融合は、単純な結合や PointNet++ ベースより grounding と生成の両方で優れる。
- アクション特定設定では、sit、stand up、lie down、walk などのアクションで再構成・生成指標が高水準になる。
- HUMANISEの事前学習は PROXベースのモーション合成タスクの性能を向上させ、下流のHSIタスクへのデータセットの利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。