QUICK REVIEW

[논문 리뷰] Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network

Yao Feng, Fan Wu|arXiv (Cornell University)|2018. 03. 21.

Face recognition and analysis참고 문헌 52인용 수 84

한 줄 요약

논문은 PRN을 소개합니다, 단일 영상에서 UV 위치 맵을 회귀하여 전체 3D 얼굴 기하를 재구성하고 밀도 정렬을 제공하며, 미리 정의된 얼굴 모델 없이 실시간 성능(~9.8 ms)과 강력한 최첨단 결과를 달성합니다.

ABSTRACT

We propose a straightforward method that simultaneously reconstructs the 3D facial structure and provides dense alignment. To achieve this, we design a 2D representation called UV position map which records the 3D shape of a complete face in UV space, then train a simple Convolutional Neural Network to regress it from a single 2D image. We also integrate a weight mask into the loss function during training to improve the performance of the network. Our method does not rely on any prior face model, and can reconstruct full facial geometry along with semantic meaning. Meanwhile, our network is very light-weighted and spends only 9.8ms to process an image, which is extremely faster than previous works. Experiments on multiple challenging datasets show that our method surpasses other state-of-the-art methods on both reconstruction and alignment tasks by a large margin.

연구 동기 및 목표

모델 제약 없이 동시 3D 얼굴 재구성 및 밀도 정렬의 도전을 해결한다.
효율적인 학습을 위해 2D UV 공간에 완전한 3D 얼굴 구조를 표현한다.
구별력이 높은 얼굴 영역을 강조하는 가중 손실(weighted loss)로 학습을 개선한다.
제약 없는 조건에 적합한 경량의 실시간 프레임워크를 제공한다.

제안 방법

UV 공간에서 3D 좌표를 기록하고 의미적 점 대응을 보존하는 UV 위치 맵을 도입한다.
단일 2D 이미지에서 UV 위치 맵을 한 번의 패스으로 회귀하기 위해 인코더–디코더 CNN을 사용한다.
목 부위를 낮은 가중치로 두고 68개 얼굴 특징점과 중앙 얼굴 영역을 우선시하는 마스크를 갖는 가중 손실을 적용한다.
주석된 3DMM 매개변수로부터 실제 UV 맵을 렌더링하여 300W-LP 유래 데이터를 사용해 학습한다.
추론 시 3DMM 매개변수 회귀에 의존하지 않으면서도 GTX 1080에서 이미지당 실시간 처리(~9.8 ms)를 가능하게 하도록 모델 단순성을 유지한다.

실험 결과

연구 질문

RQ1모델-프리(model-free)인 엔드투엔드 네트워크가 UV 위치 맵을 회귀하여 단일 이미지에서 밀도 3D 얼굴 재구성과 밀도 얼굴 정합을 모두 달성할 수 있는가?
RQ2구별력이 높은 얼굴 영역을 강조하는 가중 손실이 균일 손실과 비교하여 재구성과 정합 정확도를 향상시키는가?
RQ3도전적인 자연실험 데이터세트에서 최첨단 정확도를 유지하면서 실시간 성능을 달성하는 것이 가능한가?

주요 결과

본 방법은 AFLW2000-3D 및 Florence 데이터셋에서 3D 얼굴 재구성 및 밀도 정합에 대해 여러 베이스라인 대비 우수한 성능을 달성한다.
PRN은 100 FPS 이상으로 동작하고 네트워크 크기는 160 MB로, VRN-Guided와 같은 경쟁 방법보다 현저히 작고 빠르다.
AFLW2000-3D에서 PRN은 2D 및 3D 밀도 정합 지표 모두에서 최첨단 방법을 상당한 차이로 능가한다.
Florence에서 PRN은 더 섬세한 디테일을 제공하고 재구성에서 평균 오차 기준으로 VRN-Guided 대비 28.7% 상대적 향상을 달성한다.
특성 제거 연구에서 가중 마스크를 사용하는 것이 성능을 향상시키며 가중 비율이 희소 및 밀도 정합 결과 모두에 영향을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.