QUICK REVIEW

[論文レビュー] PLACE: Proximity Learning of Articulation and Contact in 3D Environments

Siwei Zhang, Yan Zhang|arXiv (Cornell University)|Jan 1, 2020

Human Pose and Action Recognition参考文献 43被引用数 5

ひとこと要約

PLACEは、基礎点集合を用いて人体とシーン間の近接関係をモデル化することで、新しいシーンにおける現実的な3D人体インタラクションを幾何学的アプローチで合成する手法を提案する。接触と近接関係を妥当に生成するための条件付き変分オートエンコーダ（cVAE）を用い、深度情報や意味的ラベル、アクションラベルを必要とせず、物理的に妥当で自然な人体ポーズを実現する。知覚的リアリズムと物理的妥当性において最先端の性能を達成している。

ABSTRACT

High fidelity digital 3D environments have been proposed in recent years, however, it remains extremely challenging to automatically equip such environment with realistic human bodies. Existing work utilizes images, depth or semantic maps to represent the scene, and parametric human models to represent 3D bodies. While being straightforward, their generated human-scene interactions are often lack of naturalness and physical plausibility. Our key observation is that humans interact with the world through body-scene contact. To synthesize realistic human-scene interactions, it is essential to effectively represent the physical contact and proximity between the body and the world. To that end, we propose a novel interaction generation method, named PLACE (Proximity Learning of Articulation and Contact in 3D Environments), which explicitly models the proximity between the human body and the 3D scene around it. Specifically, given a set of basis points on a scene mesh, we leverage a conditional variational autoencoder to synthesize the minimum distances from the basis points to the human body surface. The generated proximal relationship exhibits which region of the scene is in contact with the person. Furthermore, based on such synthesized proximity, we are able to effectively obtain expressive 3D human bodies that interact with the 3D scene naturally. Our perceptual study shows that PLACE significantly improves the state-of-the-art method, approaching the realism of real human-scene interaction. We believe our method makes an important step towards the fully automatic synthesis of realistic 3D human bodies in 3D scenes. The code and model are available for research at https://sanweiliti.github.io/PLACE/PLACE.html.

研究の動機と目的

既存の3D人体-シーンインタラクション合成手法における明示的な物理的接触および近接関係モデリングの欠如に対処すること。
多様な人体ポーズやシーン構造に対し一貫性を持つ、コンパクトで幾何学的ベースの人体-シーンインタラクション表現を開発すること。
シーンメッシュのみを入力として用い、新しい3D環境において自然で物理的に妥当な3D人体メッシュを生成すること。
深度情報や意味セグメンテーションなどの追加モodalを用いずに、最先端の手法を上回るリアリズムと物理的妥当性を向上させること。
完全に自動的かつ高精細な人体-シーンインタラクションの合成を可能にすること。

提案手法

2段階の基礎点集合（BPS）符号化スキームを採用：まず、固定された基礎点からシーンメッシュの頂点までの最小距離を計算し、3Dシーンを表現する。
次に、選択されたシーンメッシュの頂点から人体表面までの最小距離を計算し、人物-シーン間のインタラクションを表現する。この段階で接触と近接関係を明示的に符号化する。
条件付き変分オートエンコーダ（cVAE）を訓練し、BPSで符号化されたシーン表現に基づいて、人体と3Dシーン間の妥当な近接関係を生成する。
幾何学的注意をもつ損失項（接触損失および衝突損失）を含む新しい最適化スキームにより、生成された人体メッシュを精緻化し、物理的妥当性を向上させるとともに、相互貫通を低減する。
学習された潜在空間を用いた補間により、新しい環境における多様で自然な人体ポーズを生成可能にする。
本手法は3Dメッシュ入力にのみ依存し、深度マップ、意味的ラベル、アクションアノテーションに依存しない。

実験結果

リサーチクエスチョン

RQ1人体-シーンの近接関係を完全に幾何学的かつコンパクトな表現でモデル化することで、合成された3D人体インタラクションのリアリズムが向上するか？
RQ23Dメッシュ入力から、条件付き変分オートエンコーダ（cVAE）が人体と3Dシーン間の妥当な接触および近接関係を効果的に生成できるか？
RQ3幾何学的注意をもつ最適化損失項を組み込むことで、生成された人体の物理的妥当性と多様性が顕著に向上するか？
RQ4深度情報、意味的ラベル、アクションレベルのアノテーションに依存せずに、本手法が最先端の性能を達成できるか？
RQ5知覚的リアリズムと物理的整合性の観点から、本モデルは未学習のシーンや多様な人体ポーズに対してどのように一般化するか？

主な発見

PLACEは知覚的自然性において最先端の性能を達成し、人間の評価者により、本手法の結果が従来手法よりも現実の人体-シーンインタラクションに著しく近いと評価された。
AdvOptim最適化スキームを用いることで、PROXデータセットでは接触スコアが0.99、Replicaでは1.00に向上し、高い物理的妥当性を示した。
相互貫通回避スコアはPROXで0.98、Replicaで0.93に達し、効果的な貫通回避を実現した。
Replicaにおける潜在空間のエントロピーは2.93に達し、生成された人体ポーズの多様性が高かったことを示した。
アブレーションスタディにより、接触損失（Lcontact）が接触スコアの向上に顕著に寄与することが確認された一方、衝突損失（Lcoll）はクラスタサイズの低減と物理的整合性の向上に寄与した。
PROX、MP3D、Replicaの3つのデータセットにおいて、本手法はLiら[21]およびPSI[43]をすべての指標（多様性、物理的妥当性、知覚的リアリズム）で上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。