[论文解读] Reconstruction-Based Disentanglement for Pose-invariant Face Recognition
本文提出了一种基于重建的解耦方法,用于实现姿态不变的人脸识别,该方法从正面人脸生成多样化的姿态变化,并通过一种新颖的特征重建度量学习,将身份特征与姿态特征解耦。该方法在MultiPIE、300WLP和CFP数据集上实现了最先进性能,在大姿态变化下识别准确率提升了2%至12%,即使在训练中缺乏大量姿态数据的情况下亦如此。
Deep neural networks (DNNs) trained on large-scale datasets have recently achieved impressive improvements in face recognition. But a persistent challenge remains to develop methods capable of handling large pose variations that are relatively underrepresented in training data. This paper presents a method for learning a feature representation that is invariant to pose, without requiring extensive pose coverage in training data. We first propose to generate non-frontal views from a single frontal face, in order to increase the diversity of training data while preserving accurate facial details that are critical for identity discrimination. Our next contribution is to seek a rich embedding that encodes identity features, as well as non-identity ones such as pose and landmark locations. Finally, we propose a new feature reconstruction metric learning to explicitly disentangle identity and pose, by demanding alignment between the feature reconstructions through various combinations of identity and pose features, which is obtained from two images of the same subject. Experiments on both controlled and in-the-wild face datasets, such as MultiPIE, 300WLP and the profile view database CFP, show that our method consistently outperforms the state-of-the-art, especially on images with large head pose variations. Detail results and resource are referred to https://sites.google.com/site/xipengcshomepage/iccv2017
研究动机与目标
- 为解决在训练数据缺乏足够姿态多样性时,大姿态变化下的人脸识别挑战。
- 在推理过程中无需姿态标注,实现学习到的特征表示中身份与姿态因素的解耦。
- 在存在领域偏移(如从受控环境到真实场景)的数据集之间实现更好的泛化能力。
- 开发一种数据增强策略,从正面输入生成逼真的非正面人脸图像,以增强训练多样性。
提出的方法
- 一个面部生成网络从单张正面人脸图像合成多样化的姿态变化,丰富训练数据而无需额外标注。
- 一个联合学习框架同时优化身份识别、姿态估计和关键点定位,以学习丰富、多因素的特征嵌入。
- 一种自重建损失利用自身身份特征和非身份特征重建参考图像,保持结构一致性。
- 一种交叉重建损失将参考图像的非身份特征与查询图像的身份特征结合,强制在不同姿态下保持身份一致性。
- 基于重建的度量学习通过最小化跨身份-姿态组合的重建误差,显式地解耦身份与姿态分量。
- 该方法采用Siamese风格架构并结合重建损失,对身份特征进行正则化,使其对姿态变化具有鲁棒性。
实验结果
研究问题
- RQ1通过从正面图像生成面部数据增强,能否提升姿态不变人脸识别中的泛化能力?
- RQ2身份、姿态和关键点的联合学习在生成解耦特征表示方面效果如何?
- RQ3基于重建的度量学习是否优于直接的度量距离最小化方法,在解耦身份与姿态方面?
- RQ4该模型能否在存在显著领域偏移的数据集之间(如从受控环境到真实场景)实现泛化?
- RQ5当训练数据缺乏此类变化时,该方法是否对大姿态变化仍具有鲁棒性?
主要发现
- 在CFP数据集上,该方法在大姿态变化下相比VGGFace将识别准确率提升了12%。
- 在300WLP数据集上,使用CASIA和MultiPIE训练的模型相比VGGFace准确率提升了7.2%,显示出强大的泛化能力。
- MSMT+SR模型(带重建正则化)在MultiPIE上相比VGGFace提升2.8%,在300WLP上提升6.6%,证实了其在不同领域中的鲁棒性。
- 跨数据库评估显示性能一致下降(如300WLP上下降7%),但仍显著优于基线模型,表明具备良好的泛化能力。
- 该方法优于强基线模型如MSMT和MSMT†,尤其在大姿态变化下表现更优,证明了基于重建的解耦方法的有效性。
- N-pair损失与重建损失联合使用时性能更优,表明度量学习相比直接距离最小化在解耦方面更有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。