QUICK REVIEW

[논문 리뷰] Nonlinear 3D Face Morphable Model

Luan Tran, Xiaoming Liu|arXiv (Cornell University)|2018. 04. 11.

Face recognition and analysis참고 문헌 38인용 수 25

한 줄 요약

이 논문은 3D 스캔 없이 비제한적인 2D 얼굴 이미지에서 종량형으로 훈련된 비선형 3D 얼굴 모루어블 모델(3DMM)을 제안한다. 깊이 신경망 기반의 인코더-디코더 프레임워크에 미분 가능한 렌더링 레이어를 통합하여, 비선형 표현과 약한 감독을 통해 선형 3DMM에 비해 향상된 3D 재구성 및 얼굴 정렬 성능을 달성한다.

ABSTRACT

As a classic statistical model of 3D facial shape and texture, 3D Morphable Model (3DMM) is widely used in facial analysis, e.g., model fitting, image synthesis. Conventional 3DMM is learned from a set of well-controlled 2D face images with associated 3D face scans, and represented by two sets of PCA basis functions. Due to the type and amount of training data, as well as the linear bases, the representation power of 3DMM can be limited. To address these problems, this paper proposes an innovative framework to learn a nonlinear 3DMM model from a large set of unconstrained face images, without collecting 3D face scans. Specifically, given a face image as input, a network encoder estimates the projection, shape and texture parameters. Two decoders serve as the nonlinear 3DMM to map from the shape and texture parameters to the 3D shape and texture, respectively. With the projection parameter, 3D shape, and texture, a novel analytically-differentiable rendering layer is designed to reconstruct the original input face. The entire network is end-to-end trainable with only weak supervision. We demonstrate the superior representation power of our nonlinear 3DMM over its linear counterpart, and its contribution to face alignment and 3D reconstruction.

연구 동기 및 목표

선형 3DMM의 한계를 극복하기 위해, 작은 훈련 세트, 제어된 데이터, 선형 기저 함수에 의해 제약을 받는다.
3D 얼굴 스캔이 필요 없이 대규모 비제한적인 2D 얼굴 이미지에서 3DMM을 학습할 수 있도록 한다.
3DMM과 그 피팅 네트워크를 엔드 투 엔드 방식으로 약한 감독 아래 공동으로 학습한다.
비선형성으로 복잡한 얼굴 변형을 모델링하여 3D 얼굴 재구성 및 2D 얼굴 정렬 성능을 향상시킨다.

제안 방법

딥 네ural 네트워크 인코더가 단일 2D 얼굴 이미지에서 형상, 텍스처, 카메라 투영 파라미터를 추정한다.
잠재 파라미터에서 조밀한 3D 얼굴 형상을 생성하는 MLP 기반 디코더와 2D 텍스처를 생성하는 CNN 기반 디코더를 별도로 사용한다.
새로운 분석적으로 미분 가능한 렌더링 레이어가 3D 형상, 텍스처, 투영 파라미터에서 2D 이미지를 합성한다.
픽셀 수준의 재구성 손실(L1)과 선택적으로 PatchGAN을 통한 적대적 손실을 사용하여 전체 네트워크를 엔드 투 엔드로 훈련한다.
3D 스캔 없이도 자연계 2D 이미지의 약한 감독만으로 훈련된다.
분석-통합 피팅 기반의 프레임워크를 제공하여, 텍스처를 출력으로 생성하는 방식으로 입력으로 사용하지 않는다.

실험 결과

연구 질문

RQ13D 스캔 감독 없이 비제한적인 2D 얼굴 이미지에서 비선형 3DMM을 효과적으로 학습할 수 있는가?
RQ2딥 네럴 네트워크 기반 3DMM은 선형 PCA 기반 3DMM에 비해 얼굴 형상과 텍스처의 변동성을 얼마나 잘 모델링하는가?
RQ33DMM과 피팅 네트워크의 공동 엔드 투 엔드 훈련이 3D 재구성 및 얼굴 정렬 성능 향상에 기여하는가?
RQ43D 감독 없이 적대적 손실이 텍스처의 현실성에 어떤 영향을 미치는가?
RQ5제안된 프레임워크는 정확한 3D 스캔 없이도 3D 재구성 및 얼굴 정렬 성능에서 경쟁력을 확보할 수 있는가?

주요 결과

제안된 비선형 3DMM은 선형 3DMM에 비해 훨씬 뛰어난 3D 얼굴 재구성 품질을 달성하며, 특히 콧수염, 피부 색상 변동성과 같은 복잡한 얼굴 세부 정보를 잘 포착한다.
AFLW2000 데이터셋에서 3DDFA와 같은 최신 3D 얼굴 정렬 방법을 초월하여 더 낮은 정규화 평균 오차(NME)를 기록한다. 단일 패assing 추론 네트워크임에도 불구하고.
FaceWarehouse 데이터셋에서 오프라인 최적화 방법인 Garrido et al. [13]과 유사한 성능을 달성하며, 다른 모든 회귀 기반 방법보다 뛰어나다.
PatchGAN 적대적 손실을 사용할 경우, 전역 디스크림ิน레이터나 적대적 손실 없이 사용할 경우보다 더 현실적인 텍스처와 더 적은 아티팩트를 생성한다.
자연계 얼굴에 대해 강력한 일반화 성능을 보이며, 선형 3DMM이 잘 포착하지 못하는 민족성, 표정, 콧수염 등의 개인적 얼굴 특징을 회복한다.
제거 분석을 통해, 미분 가능한 렌더링 레이어가 효과적인 엔드 투 엔드 훈련을 가능하게 하고, 적대적 손실이 3D 감독 없이도 텍스처의 현실성을 향상시킨다는 점을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.