[논문 리뷰] PLACE: Proximity Learning of Articulation and Contact in 3D Environments
PLACE는 기초점 집합을 통해 인간 신체와 장면 간의 근접도를 모델링함으로써 새로운 장면에서 현실적인 3D 인간 신체 상호작용을 합성하기 위한 기하 기반 방법을 제안한다. 조건부 변동 자동차오더(conditional variational autoencoder, cVAE)를 사용하여 타당한 접촉 및 근접 관계를 생성함으로써, 깊이, 의미론적 정보 또는 동작 레이블 없이도 자연스럽고 물리적으로 타당한 몸체 자세를 가능하게 하며, 감각적 현실성과 물리적 타당성에서 최신 기술 수준을 달성한다.
High fidelity digital 3D environments have been proposed in recent years, however, it remains extremely challenging to automatically equip such environment with realistic human bodies. Existing work utilizes images, depth or semantic maps to represent the scene, and parametric human models to represent 3D bodies. While being straightforward, their generated human-scene interactions are often lack of naturalness and physical plausibility. Our key observation is that humans interact with the world through body-scene contact. To synthesize realistic human-scene interactions, it is essential to effectively represent the physical contact and proximity between the body and the world. To that end, we propose a novel interaction generation method, named PLACE (Proximity Learning of Articulation and Contact in 3D Environments), which explicitly models the proximity between the human body and the 3D scene around it. Specifically, given a set of basis points on a scene mesh, we leverage a conditional variational autoencoder to synthesize the minimum distances from the basis points to the human body surface. The generated proximal relationship exhibits which region of the scene is in contact with the person. Furthermore, based on such synthesized proximity, we are able to effectively obtain expressive 3D human bodies that interact with the 3D scene naturally. Our perceptual study shows that PLACE significantly improves the state-of-the-art method, approaching the realism of real human-scene interaction. We believe our method makes an important step towards the fully automatic synthesis of realistic 3D human bodies in 3D scenes. The code and model are available for research at https://sanweiliti.github.io/PLACE/PLACE.html.
연구 동기 및 목표
- 기존 3D 인간-장면 상호작용 합성 방법에서 명시적인 물리적 접촉 및 근접도 모델링의 부족을 해결하기 위해.
- 다양한 몸체 자세와 장면 구조에 걸쳐 일관된 압축형 기하 기반 표현을 개발하기 위해.
- 장면 메시만을 입력으로 사용하여 새로운 3D 환경에서 자연스럽고 물리적으로 타당한 3D 인간 신체 메시를 생성하기 위해.
- 깊이 또는 의미론적 분할과 같은 추가 모odalities에 의존하지 않고도 최신 기술 수준을 초월하는 현실성과 물리적 타당성을 향상시키기 위해.
- 완전 자동으로 고해상도의 자연스러운 인간 신체 상호작용을 합성할 수 있도록 하기 위해.
제안 방법
- 두 단계 기반의 기초점 집합(Basis Point Set, BPS) 인코딩 기법을 사용한다: 첫 번째로 고정된 기초점에서 장면 메시 정점까지의 최소 거리를 계산하여 3D 장면을 표현한다.
- 두 번째로 선택된 장면 정점에서 인간 신체 표면까지의 최소 거리를 계산하여 인물-장면 상호작용을 표현하며, 접촉과 근접도를 명시적으로 인코딩한다.
- BPS로 인코딩된 장면 표현을 기반으로 인간 신체와 3D 장면 간의 타당한 근접 관계를 생성하기 위해 조건부 변동 자동차오더(conditional variational autoencoder, cVAE)를 훈련시킨다.
- 기하 구조를 고려한 손실 항목(접촉 및 충돌 손실)을 포함하는 새로운 최적화 기법을 통해 생성된 몸체 메시를 정밀하게 보정함으로써 물리적 타당성을 향상시키고 상호 침투를 줄인다.
- 학습된 잠재 공간을 활용한 보간을 통해 새로운 환경에서 다양한 자연스러운 인간 몸체 자세를 생성할 수 있다.
- 모델은 깊이 맵, 의미 레이블 또는 동작 애너테이션에 의존하지 않고 3D 메시 입력만을 사용한다.
실험 결과
연구 질문
- RQ1순수 기하 기반의 압축된 인간-장면 근접도 표현이 합성된 3D 인간-신체 상호작용의 현실성 향상에 기여하는가?
- RQ2조건부 변동 자동차오더(cVAE)가 메시 입력으로부터 인간 신체와 3D 장면 간의 타당한 접촉 및 근접 관계를 효과적으로 생성할 수 있는가?
- RQ3기하 구조를 고려한 최적화 손실 항목을 통합함으로써 물리적 타당성과 생성된 인간 신체의 다양성이 크게 향상되는가?
- RQ4제안된 방법이 깊이, 의미론적 또는 동작 수준의 애너테이션 없이도 최신 기술 수준의 성능을 달성할 수 있는가?
- RQ5감각적 현실성과 물리적 일관성 측면에서 모델은 새로운 장면과 다양한 몸체 자세에 대해 얼마나 잘 일반화되는가?
주요 결과
- PLACE는 감각적 자연스러움에서 최신 기술 수준의 성능을 달성하였으며, 인간 평가자들이 결과를 기존 방법보다 실제 인간-장면 상호작용에 더 가깝게 평가하였다.
- AdvOptim 최적화 기법을 사용할 경우 PROX 데이터셋에서 접촉 점수는 0.99, Replica에서 1.00에 도달하여 높은 물리적 타당성을 보였다.
- PROX에서 비충돌 점수는 0.98, Replica에서는 0.93를 기록하여 상호 침투를 효과적으로 방지함을 입증하였다.
- Replica에서 잠재 공간의 엔트로피는 2.93에 도달하여 생성된 몸체 자세의 높은 다양성을 나타내었다.
- 절단 실험 결과, 접촉 손실(Lcontact)이 접촉 점수를 크게 향상시키며, 충돌 손실(Lcoll)은 클러스터 크기를 줄이고 물리적 일관성을 향상시키는 데 기여함을 확인하였다.
- PROX, MP3D, Replica의 세 데이터셋에서 모두 다양성, 물리적 타당성, 감각적 현실성 측면에서 Li et al. [21]과 PSI [43]를 모두 능가하는 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.