QUICK REVIEW

[论文解读] Recover Canonical-View Faces in the Wild with Deep Neural Networks

Zhenyao Zhu, Ping Luo|arXiv (Cornell University)|Apr 14, 2014

Face recognition and analysis参考文献 28被引用 103

一句话总结

本文提出了一种深度学习框架，通过学习从不同姿态和光照条件到标准化正面前视图的直接映射，从无约束的野生人脸图像中恢复出规范视图的人脸图像。通过采用自动选择规范视图的机制以及基于组件的卷积神经网络（CNN），该方法减少了个体内部的差异性，同时保持了个体之间的可区分性，在LFW基准测试中达到了最先进性能。

ABSTRACT

Face images in the wild undergo large intra-personal variations, such as poses, illuminations, occlusions, and low resolutions, which cause great challenges to face-related applications. This paper addresses this challenge by proposing a new deep learning framework that can recover the canonical view of face images. It dramatically reduces the intra-person variances, while maintaining the inter-person discriminativeness. Unlike the existing face reconstruction methods that were either evaluated in controlled 2D environment or employed 3D information, our approach directly learns the transformation from the face images with a complex set of variations to their canonical views. At the training stage, to avoid the costly process of labeling canonical-view images from the training set by hand, we have devised a new measurement to automatically select or synthesize a canonical-view image for each identity. As an application, this face recovery approach is used for face verification. Facial features are learned from the recovered canonical-view face images by using a facial component-based convolutional neural network. Our approach achieves the state-of-the-art performance on the LFW dataset.

研究动机与目标

为解决野生人脸图像中较大的个体内部差异性（如姿态、光照、遮挡和低分辨率）对人脸识别造成的阻碍。
开发一种深度学习框架，直接学习从无约束人脸图像到规范视图的映射，而无需依赖3D模型或人工标注。
在训练过程中自动选择或合成每个身份的规范视图图像，避免昂贵的人工标注。
通过从恢复的规范视图图像中学习鲁棒的面部特征，提升人脸识别性能。
在LFW数据集上使用恢复的规范视图作为输入，通过基于组件的CNN实现最先进准确率。

提出的方法

训练一个深度神经网络，将野生的、无约束的人脸图像映射到其规范正面前视图表示，直接学习从复杂变化中进行转换。
设计了一种自动度量方法，用于为每个身份选择或合成规范视图图像，从而消除对手动标注的依赖。
使用基于面部组件的卷积神经网络（CNN）从恢复的规范视图图像中提取特征，用于后续的人脸验证任务。
该框架可端到端训练，网络能够学习将身份不变特征与姿态、光照等身份可变因素解耦。
训练过程利用大规模无约束人脸图像数据集，通过基于图像质量和对齐度的无监督选择机制生成规范视图。
该方法无需3D人脸模型或显式的3D监督，完全依赖2D图像数据和深度特征学习。

实验结果

研究问题

RQ1深度神经网络是否能在无3D监督的情况下，有效从无约束的野生图像中恢复出规范正面前视图？
RQ2如何在无需人工标注的情况下，自动选择或合成每个身份的规范视图图像？
RQ3恢复规范视图在多大程度上减少了个体内部差异性，同时保持了个体之间的可区分性？
RQ4与标准深度学习方法相比，恢复的规范视图是否能提升在无约束数据上的人脸识别准确率？
RQ5与在原始野生图像上训练的标准CNN相比，使用基于组件的CNN在恢复的规范视图上能带来多大的性能提升？

主要发现

所提方法在LFW数据集上实现了最先进性能，在无约束条件下的人脸验证任务中优于现有方法。
自动规范视图选择机制能有效识别高质量、类似正面前视的图像，无需人工标注，从而支持可扩展的训练。
恢复的规范视图图像显著减少了由姿态和光照引起的个体内部差异性，提升了特征的鲁棒性。
在恢复的规范视图上训练的基于组件的CNN，其准确率高于在原始野生图像上训练的标准CNN。
该方法在真实世界数据上表现出强泛化能力，即使在低分辨率和部分遮挡的人脸上也表现出有效性。
尽管未使用显式3D信息，该框架在人脸识别准确率上仍优于基于2D和3D的人脸重建方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。