QUICK REVIEW

[论文解读] Unsupervised Training for 3D Morphable Model Regression

Kyle Genova, Forrester Cole|arXiv (Cornell University)|Jun 15, 2018

Face recognition and analysis参考文献 27被引用 18

一句话总结

本文提出了一种无监督方法，通过仅使用未标注的照片训练深度回归网络，将单张图像映射到3D形态模型（3DMM）参数。通过利用预训练的人脸识别网络中的身份特征，并引入三种新型损失函数——批量分布损失、回环损失和多视角身份损失，该模型在无需任何真实3D监督的情况下实现了最先进的3D人脸重建精度，即使在具有挑战性的图像上也能生成可识别且保持身份一致性的3D人脸。

ABSTRACT

We present a method for training a regression network from image pixels to 3D morphable model coordinates using only unlabeled photographs. The training loss is based on features from a facial recognition network, computed on-the-fly by rendering the predicted faces with a differentiable renderer. To make training from features feasible and avoid network fooling effects, we introduce three objectives: a batch distribution loss that encourages the output distribution to match the distribution of the morphable model, a loopback loss that ensures the network can correctly reinterpret its own output, and a multi-view identity loss that compares the features of the predicted 3D face and the input photograph from multiple viewing angles. We train a regression network using these objectives, a set of unlabeled photographs, and the morphable model itself, and demonstrate state-of-the-art results.

研究动机与目标

解决训练深度回归网络时缺乏大规模真实世界3D人脸监督的问题。
实现在无需真实3D扫描或逆向渲染的情况下，从单张图像进行精确的3D人脸重建。
通过利用对姿态和光照具有鲁棒性的身份特征，提升3D人脸生成的泛化能力和身份保持性。
通过基于深度身份嵌入的无监督损失，消除对合成数据或迭代优化的依赖。

提出的方法

该方法通过仅使用未标注图像和一个预训练的人脸识别网络，训练回归网络以从图像像素预测3DMM形状和纹理参数。
可微分渲染器从预测的3DMM参数生成合成人脸图像，从而实现通过渲染过程的反向传播。
身份损失比较输入图像与渲染的3D人脸之间的VGG-Face或FaceNet特征，确保在不同姿态和光照条件下保持身份一致性。
批量分布损失将预测的3DMM参数的统计分布与形态模型的先验分布相匹配，防止模式崩溃。
回环损失通过重新编码预测的3D人脸并重建相同的标识特征，确保网络能够正确重新解释其自身输出。
多视角身份损失通过从预测3D人脸的多个独立视角计算身份特征，并与输入图像的特征进行比较，增强模型的鲁棒性。

实验结果

研究问题

RQ1是否可以完全不依赖3D监督或合成数据来训练3D人脸重建网络？
RQ2当输入图像的姿态、光照和表情变化时，如何在3D人脸重建中保持身份一致性？
RQ3哪些损失函数在无监督3DMM回归中有效，且能避免网络欺骗和模式崩溃？
RQ4在未标注图像上训练的回归网络能否实现与监督方法相当或更优的性能？
RQ5该方法在模糊、遮挡和非照片级真实感输入等具有挑战性的现实条件下有多强的鲁棒性？

主要发现

在MoFA-Test数据集上，该方法使用VGG-Face特征实现了87%的Top-1身份召回率，显著优于MoFA（19%）和Tran等人（25%）。
在包含5,749个身份的更大规模LFW数据集上，该方法实现了51%的Top-5身份召回率，表明其对多样化身份具有强大的泛化能力。
在LFW数据集中，重建人脸与真实同身份对之间的相似度分数的地球移动距离（EMD）为0.16，表明与真实身份高度相似。
由于身份特征对风格化像素细节具有不变性，该方法即使在非照片级真实感艺术作品（如BAM数据集所示）上也能生成一致且可识别的3D人脸。
在FERET压力测试集上的实验表明，该模型对姿态、光照、表情、遮挡和模糊均具有鲁棒性。
无监督训练方案结合身份损失、回环损失和批量分布损失，成功避免了模式崩溃和网络欺骗，从而生成高质量的3D重建结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。