QUICK REVIEW

[논문 리뷰] Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans

Sida Peng, Yuanqing Zhang|arXiv (Cornell University)|2020. 12. 31.

Advanced Vision and Imaging참고 문헌 65인용 수 21

한 줄 요약

Neural Body는 동적 인간의 희소 다중 시점 영상에서, 변형 가능한 SMPL 메ッシュ에 공유 잠재 코드를 고정시켜 프레임 간 관측 통합을 가능하게 하는 새로운 암묵적 신경 표현을 제안한다. 이는 ZJU-MoCap 및 단일 시점 영상 복원에서 최신 기술 수준(SOTA) 성능을 달성하며, PSNR와 SSIM 측면에서 이전 방법들보다 뚜렷한 우월성을 보인다.

ABSTRACT

This paper addresses the challenge of novel view synthesis for a human performer from a very sparse set of camera views. Some recent works have shown that learning implicit neural representations of 3D scenes achieves remarkable view synthesis quality given dense input views. However, the representation learning will be ill-posed if the views are highly sparse. To solve this ill-posed problem, our key idea is to integrate observations over video frames. To this end, we propose Neural Body, a new human body representation which assumes that the learned neural representations at different frames share the same set of latent codes anchored to a deformable mesh, so that the observations across frames can be naturally integrated. The deformable mesh also provides geometric guidance for the network to learn 3D representations more efficiently. To evaluate our approach, we create a multi-view dataset named ZJU-MoCap that captures performers with complex motions. Experiments on ZJU-MoCap show that our approach outperforms prior works by a large margin in terms of novel view synthesis quality. We also demonstrate the capability of our approach to reconstruct a moving person from a monocular video on the People-Snapshot dataset. The code and dataset are available at https://zju3dv.github.io/neuralbody/.

연구 동기 및 목표

매우 희소한 다중 시점 영상에서 동적 인간의 신규 시점 합성을 위한 불안정 문제를 해결하기 위해.
영상 프레임 간 시간적 관측을 통합하여 희소 관측 하에서 3D 표현 학습을 향상시키기 위해.
자세 간 일반화가 가능하고 고해상도 기하학적 구조와 외관을 유지하는 기하학적 지도를 받은 암묵적 신경 표현을 개발하기 위해.
다중 시점 설정을 초월하여 단일 RGB 영상에서 고품질 3D 복원 및 시점 합성을 가능하게 하기 위해.

제안 방법

Neural Body는 변형 가능한 SMPL 메쉬의 정점에 잠재 코드의 집합을 고정시키며, 각 프레임에서 인간 자세에 따라 이들의 공간적 변환을 수행한다.
동일한 잠재 코드 집합이 모든 영상 프레임에서 암묵적 3D 표현(밀도 및 색상)을 생성하는 데 사용되어 시간에 걸친 공동 최적화를 가능하게 한다.
변환된 잠재 코드를 사용해 신경망이 임의의 공간 위치에서 3D 시cene 특성을 추론하며, 볼륨 렌더링을 통해 미분 가능한 이미지 합성을 수행한다.
모델은 볼륨 렌더링 손실을 모든 입력 시점에 걸쳐 사용하여 엔드 투 엔드로 훈련되며, 변형 가능한 메쉬가 효율적 학습을 위한 기하학적 사전 지식을 제공한다.
각 프레임의 잠재 임bedding을 도입하여 프레임 별 변형을 허용하면서도, 프레임 간 일관성을 유지하기 위한 공통 코드 구조를 유지한다.
희소 환경에서의 모호성 감소를 위해 관측치를 프레임 간 효과적으로 융합할 수 있도록 잠재 변수 모델 프레임워크를 활용한다.

실험 결과

연구 질문

RQ1희소 입력 시점에서 암묵적 신경 표현을 영상 프레임 간 효과적으로 공유함으로써 신규 시점 합성 성능을 향상시킬 수 있는가?
RQ2변형 가능한 인간 모델에서 유도된 기하학적 사전 지식이 동적 장면에서 3D 암묵적 표현 학습에 어떻게 기여하는가?
RQ3자세에 의해 변환된 단일 잠재 코드 집합이 다양한 인간 동작과 외관에 얼마나 잘 일반화되는가?
RQ4제안된 방법이 3D 지도 정보가 제한된 단일 RGB 영상에서 고품질의 신규 시점 합성을 달성할 수 있는가?
RQ5시간적 관측치의 통합이 3D 복원 및 시점 합성의 안정성과 품질에 어떤 영향을 미치는가?

주요 결과

ZJU-MoCap 데이터셋에서 6개 시점으로 훈련한 Neural Body는 PSNR 32.73, SSIM 0.979를 기록하며 이전 방법들보다 뚜렷한 우월성을 보였다.
단일 시점으로 훈련한 모델는 PSNR 25.08을 기록했으며, 이는 4개 시점으로 훈련한 이전 방법(PSNR 23.12)을 뛰어넘었다.
더 긴 영상 시퀀스(최대 600 프레임)로 훈련할수록 성능이 향상되어 PSNR 30.59를 기록했지만, 1200 프레임에서는 훈련 난이도로 인해 성능이 약간 저하되었다.
각 프레임의 잠재 임베딩을 포함시킴으로써 PSNR가 0.53점 향상(30.03 → 30.56)되었으며, 이는 각 프레임의 세부 정보 유지에 중요한 역할을 함을 보여준다.
People-Snapshot 단일 시점 데이터셋에서 Neural Body는 이전 작업 대비 더 정확한 외관 세부 정보를 렌더링했으며, 특히 느슨한 옷차림의 경우 뛰어난 성능을 보였다.
정성적 결과에서는 복잡한 조명 조건에서도 일관된 헤어 모양과 정확한 옷 주름을 회복하는 데 뛰어난 기하학적 세부 정보 복원 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.