QUICK REVIEW

[论文解读] Nonlinear 3D Face Morphable Model

Luan Tran, Xiaoming Liu|arXiv (Cornell University)|Apr 11, 2018

Face recognition and analysis参考文献 38被引用 25

一句话总结

本文提出了一种端到端训练的非线性3D人脸形态模型（3DMM），仅从无约束的2D人脸图像中学习，无需3D扫描，采用带有可微渲染层的深度编码器-解码器框架。通过利用深度网络的非线性表示和弱监督，该方法在3D重建和人脸对齐性能上优于线性3DMM。

ABSTRACT

As a classic statistical model of 3D facial shape and texture, 3D Morphable Model (3DMM) is widely used in facial analysis, e.g., model fitting, image synthesis. Conventional 3DMM is learned from a set of well-controlled 2D face images with associated 3D face scans, and represented by two sets of PCA basis functions. Due to the type and amount of training data, as well as the linear bases, the representation power of 3DMM can be limited. To address these problems, this paper proposes an innovative framework to learn a nonlinear 3DMM model from a large set of unconstrained face images, without collecting 3D face scans. Specifically, given a face image as input, a network encoder estimates the projection, shape and texture parameters. Two decoders serve as the nonlinear 3DMM to map from the shape and texture parameters to the 3D shape and texture, respectively. With the projection parameter, 3D shape, and texture, a novel analytically-differentiable rendering layer is designed to reconstruct the original input face. The entire network is end-to-end trainable with only weak supervision. We demonstrate the superior representation power of our nonlinear 3DMM over its linear counterpart, and its contribution to face alignment and 3D reconstruction.

研究动机与目标

克服线性3DMM的局限性，其受限于小规模训练集、受控数据和线性基函数。
实现在大规模无约束2D人脸图像上学习3DMM，而无需3D人脸扫描。
以端到端、弱监督的方式联合学习3DMM及其拟合网络。
通过非线性建模复杂的人脸变化，提升3D人脸重建与2D人脸对齐性能。

提出的方法

一个深度神经网络编码器从单张2D人脸图像中估计形状、纹理和相机投影参数。
两个独立的解码器——MLP用于形状，CNN用于纹理——从潜在参数生成密集的3D人脸形状和2D纹理。
提出一种新型解析可微的渲染层，从3D形状、纹理和投影参数合成2D图像。
整个网络仅使用像素级重建损失（L1）进行端到端训练，可选地结合PatchGAN的对抗损失。
模型在无需任何3D扫描的情况下进行训练，完全依赖野外2D图像的弱监督。
该框架支持分析-合成拟合，其中纹理作为输出生成，而非作为输入使用。

实验结果

研究问题

RQ1能否在无3D扫描监督的情况下，从无约束2D人脸图像中有效学习非线性3DMM？
RQ2基于深度神经网络的3DMM与基于线性PCA的3DMM相比，在建模人脸形状和纹理可变性方面表现如何？
RQ33DMM及其拟合网络的联合端到端训练能否提升3D重建与人脸对齐性能？
RQ4在缺乏3D监督的情况下，对抗损失对纹理真实感的影响是什么？
RQ5所提出的框架能否在无真实3D扫描的情况下，实现与现有方法相当的3D重建与人脸对齐性能？

主要发现

所提出的非线性3DMM在3D人脸重建质量上显著优于线性3DMM，尤其在捕捉复杂面部细节（如胡须和肤色变化）方面表现更优。
在AFLW2000数据集上，该方法超越了最先进的3D人脸对齐方法（如3DDFA），即使作为单次前向推理网络，也实现了更低的归一化均方误差（NME）。
在FaceWarehouse数据集上，该方法与离线优化方法Garrido等人[13]性能相当，优于所有其他基于回归的方法。
使用PatchGAN对抗损失可生成更逼真、更少伪影的纹理，优于全局判别器或无对抗损失的情况。
该模型在野外人脸图像上表现出强大的泛化能力，能恢复种族特征、表情和胡须等个性化面部特征，这些特征在线性3DMM中难以准确捕捉。
消融实验证实，可微渲染层有效支持端到端训练，且对抗损失在无3D监督下显著提升了纹理真实感。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。