[논문 리뷰] Animatable Neural Radiance Fields from Monocular RGB Videos
논문은 SMPL 기반 자세 가이드 변형을 NeRF와 통합하여 단일 RGB 비디오로부터 애니메이션 가능한 3D 인간 아바타를 재구성하고 렌더링하며, SMPL 매개변수와 NeRF를 공동 최적화하여 디테일을 향상시키고 새로운 포즈 애니메이션을 가능하게 한다.
We present animatable neural radiance fields (animatable NeRF) for detailed human avatar creation from monocular videos. Our approach extends neural radiance fields (NeRF) to the dynamic scenes with human movements via introducing explicit pose-guided deformation while learning the scene representation network. In particular, we estimate the human pose for each frame and learn a constant canonical space for the detailed human template, which enables natural shape deformation from the observation space to the canonical space under the explicit control of the pose parameters. To compensate for inaccurate pose estimation, we introduce the pose refinement strategy that updates the initial pose during the learning process, which not only helps to learn more accurate human reconstruction but also accelerates the convergence. In experiments we show that the proposed approach achieves 1) implicit human geometry and appearance reconstruction with high-quality details, 2) photo-realistic rendering of the human from novel views, and 3) animation of the human with novel poses.
연구 동기 및 목표
- 단일 RGB 비디오에서 고품질 3D 인간 재구성의 필요성 및 비용 효율성 부재 해결.
- 자세한 인간 템플릿을 위한 정합 NeRF 공간을 학습하기 위한 명시적 SMPL 가이드 변형 제안.
- 수렴 및 재구성 정확도 향상을 위해 NeRF와 SMPL 매개변수를 공동 최적화.
- 재구성된 인간의 새로운 보기 렌더링 및 새로운 포즈 애니메이션 가능성 확보.
제안 방법
- 3D 위치, SMPL 형태(shape) 및 자세를 Canonical 공간에서 색상(color)과 밀도(density)로 매핑하는 애니매터블한 NeRF 도입.
- 근처 SMPL 정점의 가중 합(블렌드 스키닝)을 사용하여 관찰 공간의 포인트를 Canonical 공간으로 변형하는 자세-가이드 변형 사용.
- 3D 마스크를 통한 기하학적 사전 정보를 가진 볼륨 렌더링으로 신경 방사 필드에서 이미지를 렌더링.
- 분석-생성(analysis-by-synthesis) 방식으로 NeRF 매개변수와 SMPL 매개변수를 공동 최적화하고, 학습 중 SMPL 추정치를 교정하기 위한 포즈 정제를 수행.
- 최적화의 안정화를 위해 배경 규제 및 포즈 규제를 도입.
실험 결과
연구 질문
- RQ1SMPL 가이드 변형으로 monocular 비디오에서 학습된 제어 가능하고 애니메이션 가능한 NeRF를 만들 수 있는가?
- RQ2NeRF와 SMPL 매개변수를 공동 최적화하는 것이 기초 방법들보다 3D 기하 및 외관 품질을 향상시키는가?
- RQ3단일 시각 입력에서 견고한 재구성 및 애니메이션을 달성하기 위해 포즈 정제가 필요한가?
- RQ4제 canonical 포즈 선택 및 배경 규제가 재구성 및 새로운 포즈 합성에 어떤 영향을 주는가?
- RQ5제안된 방법이 재구성된 인간의 새로운 시점 합성 및 새로운 포즈 합성을 얼마나 잘 지원하는가?
주요 결과
| 대상 ID | NeRF PSNR | SMPLpix PSNR | NB PSNR | NeRF+U PSNR | OURS PSNR | NeRF SSIM | SMPLpix SSIM | NB SSIM | NeRF+U SSIM | OURS SSIM | NeRF LIPIS | SMPLpix LIPIS | NB LIPIS | NeRF+U LIPIS | OURS LIPIS |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| male-3-casual | 20.64 | 23.74 | 24.94 | 23.88 | 29.37 | .8993 | .9229 | .9428 | .9329 | .9703 | .1008 | .0222 | .0326 | .0438 | .0168 |
| male-4-casual | 20.29 | 22.43 | 24.71 | 23.13 | 28.37 | .8803 | .9095 | .9469 | .9276 | .9605 | .1445 | .0305 | .0423 | .0554 | .0268 |
| female-3-casual | 17.43 | 22.33 | 23.87 | 22.45 | 28.91 | .8605 | .9288 | .9504 | .9413 | .9743 | .1696 | .0270 | .0346 | .0498 | .0215 |
| female-4-casual | 17.63 | 23.35 | 24.37 | 23.13 | 28.90 | .8578 | .9258 | .9451 | .9276 | .9678 | .1827 | .0239 | .0382 | .0556 | .0174 |
| iper-009-4-1 | 19.54 | 20.25 | 25.46 | 21.56 | 30.23 | .7870 | .9018 | .9378 | .8667 | .9466 | .2641 | .0293 | .0558 | .1197 | .0335 |
| iper-023-1-1 | 17.41 | 19.48 | 25.44 | 20.25 | 27.26 | .7623 | .8945 | .9330 | .8656 | .9457 | .2769 | .0442 | .0493 | .1109 | .0285 |
| iper-002-1-1 | 16.01 | 19.64 | 23.06 | 18.75 | 26.99 | .7500 | .8886 | .9394 | .8708 | .9502 | .3363 | .0392 | .0476 | .1205 | .0285 |
| iper-026-1-1 | 17.09 | 19.03 | 23.77 | 18.48 | 26.85 | .7580 | .8574 | .9351 | .8623 | .9542 | .2928 | .0494 | .0550 | .1282 | .0315 |
- 단일 비디오에서 의복 주름, 머리카락 등 관찰 가능한 디테일이 있는 인간에 대해 고품질의 암시적 기하학 및 외관을 달성한다.
- 정합 NeRF 공간을 활용하여 애니메이션된 인간의 포토리얼리스틱한 새로운 뷰 렌더링 가능.
- 명시적 포즈 가이드가 없는 NeRF 변형보다 더 낮은 P2S 및 Chamfer를 기록하며 3D 재구성 지표가 우수하게 나타남.
- iPER 및 People-Snapshot 데이터셋에서 새로운 포즈 합성에서 NeuralBody 및 SMPLpix보다 우수한 성능.
- 학습 중 포즈 정제는 SMPL 추정이 불완전할 때 렌더링 품질을 크게 향상시킴.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.