[论文解读] Reconstruction for Feature Disentanglement in Pose-invariant Face Recognition
本文提出了一种姿态不变的人脸识别方法,通过生成网络从正面图像生成非正面视图,利用多源多任务深度神经网络学习身份和姿态特征,并通过孪生网络解耦身份与姿态。该方法在MultiPIE、LFW和300WLP等数据集上实现了最先进性能,尤其在大姿态变化情况下表现优异。
Deep neural networks (DNNs) trained on large-scale datasets have recently achieved impressive improvements in face recognition. But a persistent challenge remains to develop methods capable of handling large pose variations that are relatively under-represented in training data. This paper presents a method for learning a feature representation that is invariant to pose, without requiring extensive pose coverage in training data. We first propose to use a synthesis network for generating non-frontal views from a single frontal image, in order to increase the diversity of training data while preserving accurate facial details that are critical for identity discrimination. Our next contribution is a multi-source multi-task DNN that seeks a rich embedding representing identity information, as well as information such as pose and landmark locations. Finally, we propose a Siamese network to explicitly disentangle identity and pose, by demanding alignment between the feature reconstructions through various combinations of identity and pose features obtained from two images of the same subject. Experiments on face datasets in both controlled and wild scenarios, such as MultiPIE, LFW and 300WLP, show that our method consistently outperforms the state-of-the-art, especially on images with large head pose variations.
研究动机与目标
- 解决训练数据中姿态变化较大但样本不足的问题。
- 开发一种对姿态不变的特征表示,而无需依赖大量姿态标注的训练数据。
- 在数据增强过程中保留对身份辨别至关重要的高保真面部细节。
- 通过多任务深度网络同时学习身份、姿态和关键点特征。
- 通过孪生网络显式解耦身份与姿态特征,以提高对姿态变化的鲁棒性。
提出的方法
- 使用生成网络从单张正面输入图像生成逼真的非正面人脸图像,以增加训练数据的多样性。
- 训练一个多源多任务深度神经网络,从面部特征中联合预测身份、姿态和关键点位置。
- 设计一个孪生网络,通过结合来自同一人两个图像的身份和姿态特征来对齐特征重建。
- 通过要求在共享身份特征但姿态特征不同的情况下保持一致的重建,强制实现解耦。
- 在推理阶段利用解耦特征提升对未见姿态变化的泛化能力。
- 通过组合重建损失、分类损失和对比损失目标,端到端优化整个流程。
实验结果
研究问题
- RQ1仅从单张正面图像进行数据生成,能否有效增强训练数据,从而提升对大姿态变化的鲁棒性?
- RQ2多任务网络在保持解耦的前提下,能在多大程度上联合学习身份、姿态和关键点特征?
- RQ3通过孪生网络实现的显式特征解耦是否能提升姿态不变人脸识别的性能?
- RQ4在具有显著姿态可变性的数据集上,该方法与最先进方法相比表现如何?
- RQ5该模型能否泛化到姿态变化极端且多样的开放世界设置中?
主要发现
- 所提方法在MultiPIE数据集上实现了最先进性能,尤其在大姿态变化情况下表现突出。
- 在LFW数据集上,该方法展现出强大的泛化能力,在零样本姿态泛化任务中优于现有方法。
- 300WLP数据集的结果证实了其对非约束、真实世界姿态变化的更强鲁棒性。
- 孪生网络的解耦机制显著提升了特征质量,尤其在姿态变化剧烈时表现更优。
- 生成网络保留了对身份辨别至关重要的精细面部细节,避免了生成模型中常见的模糊或失真问题。
- 多任务学习框架通过在身份、姿态和关键点预测之间共享表示,实现了更优的特征学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。