QUICK REVIEW

[论文解读] Deep Learning Face Attributes in the Wild

Ziwei Liu, Ping Luo|arXiv (Cornell University)|Nov 28, 2014

Face recognition and analysis参考文献 25被引用 103

一句话总结

该论文提出了一种两流深度学习框架 LNets+ANet，该框架在分别对通用物体和人脸身份进行预训练后，联合微调两个CNN——LNet用于使用图像级属性标签进行弱监督人脸定位，ANet用于属性预测。该方法在CelebA和LFWA上实现了最先进性能，准确率最高提升10%，并揭示了预训练可促进语义概念的发现，且无需边界框即可实现定位。

ABSTRACT

Predicting face attributes in the wild is challenging due to complex face variations. We propose a novel deep learning framework for attribute prediction in the wild. It cascades two CNNs, LNet and ANet, which are fine-tuned jointly with attribute tags, but pre-trained differently. LNet is pre-trained by massive general object categories for face localization, while ANet is pre-trained by massive face identities for attribute prediction. This framework not only outperforms the state-of-the-art with a large margin, but also reveals valuable facts on learning face representation. (1) It shows how the performances of face localization (LNet) and attribute prediction (ANet) can be improved by different pre-training strategies. (2) It reveals that although the filters of LNet are fine-tuned only with image-level attribute tags, their response maps over entire images have strong indication of face locations. This fact enables training LNet for face localization with only image-level annotations, but without face bounding boxes or landmarks, which are required by all attribute recognition works. (3) It also demonstrates that the high-level hidden neurons of ANet automatically discover semantic concepts after pre-training with massive face identities, and such concepts are significantly enriched after fine-tuning with attribute tags. Each attribute can be well explained with a sparse linear combination of these concepts.

研究动机与目标

解决在姿态、光照和遮挡等复杂变化下，真实世界图像中的人脸属性预测挑战。
开发一种无需在训练过程中使用边界框或关键点即可实现人脸定位与属性预测的框架。
研究在大规模物体类别和人脸身份上进行预训练，如何提升人脸定位与属性识别的特征学习能力。
通过一种新颖的快速前向传播方案实现对任意尺寸图像的高效、实时推理，该方案适用于局部共享滤波器。
揭示深度网络在预训练和微调过程中隐式学习到的语义概念。

提出的方法

LNet在ImageNet上进行预训练以学习通用物体识别的鲁棒特征，随后仅使用图像级属性标签进行微调，无需边界框。
ANet在大规模人脸身份识别数据集上进行预训练以学习与身份相关的特征，随后使用属性标签进行微调以实现属性预测。
提出一种新颖的交错前向传播操作，通过替换逐块评估方式，减少局部共享滤波器的冗余计算，从而实现在任意尺寸图像上的高效推理。
通过平均LNet滤波器的响应图实现人脸定位，即使在缺乏显式定位监督的情况下，这些响应图在人脸位置也表现出强烈的时空激活。
通过聚类ANet全连接层的权重分析语义概念发现，揭示了诸如共现模式和外观特征等可解释的属性分组。
该框架采用级联结构，其中LNet提供粗略的人脸区域定位，ANet从定位区域提取特征以进行最终的属性预测。

实验结果

研究问题

RQ1仅使用图像级属性标签，能否有效学习人脸定位，而无需边界框或关键点？
RQ2在大规模通用物体类别上进行预训练，如何提升弱监督设置下的人脸定位性能？
RQ3在人脸身份预训练的网络（ANet）中，高层神经元在多大程度上能自动发现性别、年龄或种族等语义概念？
RQ4能否设计一种针对局部共享滤波器的快速单次遍历推理方法，以实现实时处理任意尺寸输入？
RQ5当在少量新标签子集上微调时，所提框架在未见属性上的泛化能力如何？

主要发现

所提出的LNets+ANet框架在CelebA上达到87%的准确率，在LFWA上达到84%，优于PANDA-l（81%）和FaceTracer（81%）3–10个百分点，即使PANDA-l使用了真实边界框。
LNet仅使用图像级标签即实现了出色的人脸定位性能——其响应图能有效定位人脸，证明弱监督可生成鲁棒的定位特征。
在大规模人脸身份上预训练ANet，使其能够发现如种族、性别和年龄等有意义的语义概念，这些概念在属性微调过程中进一步优化。
ANet全连接层的权重矩阵揭示了可解释的属性分组：例如，第1组显示出“吸引人”与“浓妆”的强共现关系，第3组则反映基于颜色的相似性。
在LFWA+的30个新属性上测试时，LNets+ANet相较于FaceTracer、PANDA-w和PANDA-l分别实现了8%、10%和3%的平均准确率提升，证明了其强大的泛化能力。
该方法将定位推理时间缩短至35ms，特征提取时间缩短至14ms（针对300×300图像），优于逐块扫描方式（80ms），适用于实时应用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。