Skip to main content
QUICK REVIEW

[논문 리뷰] Multiface: A Dataset for Neural Face Rendering

Cheng-hsin Wuu, Ningyuan Zheng|arXiv (Cornell University)|2022. 07. 22.
Face recognition and analysis인용 수 49
한 줄 요약

Multiface는 13 identities를 대상으로 한 고해상도 다중 시점 얼굴 영상 데이터셋(Mugsy)을 공개하고, 공간 편향(spatial bias), warp field, 잔차(residuals) 등의 아키텍처 조정이 신경 얼굴 렌더링과 새로운 시점/표현 보간에 미치는 영향을 분석한다.

ABSTRACT

Photorealistic avatars of human faces have come a long way in recent years, yet research along this area is limited by a lack of publicly available, high-quality datasets covering both, dense multi-view camera captures, and rich facial expressions of the captured subjects. In this work, we present Multiface, a new multi-view, high-resolution human face dataset collected from 13 identities at Reality Labs Research for neural face rendering. We introduce Mugsy, a large scale multi-camera apparatus to capture high-resolution synchronized videos of a facial performance. The goal of Multiface is to close the gap in accessibility to high quality data in the academic community and to enable research in VR telepresence. Along with the release of the dataset, we conduct ablation studies on the influence of different model architectures toward the model's interpolation capacity of novel viewpoint and expressions. With a conditional VAE model serving as our baseline, we found that adding spatial bias, texture warp field, and residual connections improves performance on novel view synthesis. Our code and data is available at: https://github.com/facebookresearch/multiface

연구 동기 및 목표

  • 13개의 신원에 걸친 동기화 캡처와 텍스처링된 메쉬를 포함한 대규모 고품질 다중 시점 얼굴 데이터셋 제공.
  • Codec Avatars를 위한 신경 얼굴 렌더링 및 새로운 시점/표정 보간 연구 활성화.
  • 모델 아키텍처의 변화가 새로운 시점과 표정에 대한 보간 능력에 어떻게 영향을 미치는지 평가.

제안 방법

  • Mugsy라는 다중 카메라 장치를 사용해 최대 160대의 컬러 카메라에서 동기화된 4096x2668 비디오를 캡처합니다.
  • 모든 피사체에 대해 원시 이미지, 언랩된 텍스처, 추적된 메시, 헤드 포즈, 오디오, 보정 메타데이터를 제공합니다.
  • 뷰 독립 잠재 코드에서 조건부 VAE 기반 베이스라인을 사용하여 텍스처 인코더와 메시 인코더를 통해 뷰를 조건으로 하는 렌더링을 모델링합니다.
  • 공간 편향, 텍스처 워프 필드, 잔차 연결 등 아키텍처 변형을 실험해 새로운 시점/표현 보간에 미치는 영향을 연구합니다.
  • 차별화 가능한 렌더링 파이프라인과 눈/입을 강조하고 배경을 고려하는 전경 마스크 가중 손실로 학습합니다.

실험 결과

연구 질문

  • RQ1Multiface가 고충실도 신경 얼굴 렌더링을 위한 강건한 새로운 시점 합성을 어떻게 가능하게 하나?
  • RQ2공간 편향(spatial bias), warp field, 잔차 연결과 같은 아키텍처 수정이 보이지 않는 시점과 표현으로의 보간에 어떤 영향을 미치는가?
  • RQ3훈련 카메라 커버리지가 새로운 시점 및 표현에 대한 재구성 품질에 미치는 영향은 무엇인가?

주요 결과

  • 공간 편향은 시점에 의존하지 않는 텍스처 정보를 인코딩하여 정확한 새로운 시점 합성에 중요합니다.
  • 훈련 데이터가 제한된 경우(카메라가 적은 경우) 더 깊은 모델과 잔차 연결이 도움이 됩니다.
  • 텍스처 워프 필드와 공간 편향은 특히 공동의 새로운 시점 및 새로운 표현 작업에서 보간 성능을 향상시킵니다.
  • 공동 작업(새 시점 + 새 표현)은 각 작업 단독보다 더 어렵고, 최적의 성능을 위해 더 많은 학습 시점이 필요합니다.
  • 훈련 중 카메라 커버리지를 증가시키면 다양한 아키텍처에서 재구성 오차가 감소합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.