[论文解读] PANDA: Pose Aligned Networks for Deep Attribute Modeling
PANDA 提出了一种新颖的深度学习框架,通过将姿态对齐的部件检测器(姿态部件)与卷积神经网络(CNNs)结合,提升了人体属性识别性能。通过在姿态归一化的图像块上分别训练CNN,并拼接其特征,PANDA在属性分类任务中实现了最先进(SOTA)的性能表现,尤其在姿态和视角变化较大的挑战性场景下,优于整体CNN和基于部件的模型,在包括伯克利人物属性数据集和LFW在内的基准数据集上表现优异。
We propose a method for inferring human attributes (such as gender, hair style, clothes style, expression, action) from images of people under large variation of viewpoint, pose, appearance, articulation and occlusion. Convolutional Neural Nets (CNN) have been shown to perform very well on large scale object recognition problems. In the context of attribute classification, however, the signal is often subtle and it may cover only a small part of the image, while the image is dominated by the effects of pose and viewpoint. Discounting for pose variation would require training on very large labeled datasets which are not presently available. Part-based models, such as poselets and DPM have been shown to perform well for this problem but they are limited by shallow low-level features. We propose a new method which combines part-based models and deep learning by training pose-normalized CNNs. We show substantial improvement vs. state-of-the-art methods on challenging attribute classification tasks in unconstrained settings. Experiments confirm that our method outperforms both the best part-based methods on this problem and conventional CNNs trained on the full bounding box of the person.
研究动机与目标
- 解决在存在显著姿态、视角和遮挡变化的非约束环境下准确进行人体属性识别的挑战。
- 克服整体CNN的局限性,后者在姿态和外观变化占主导时难以捕捉细微的属性信号。
- 通过实现姿态归一化的特征学习,整合基于部件模型的优势(如姿态部件定位)与深度学习。
- 证明在局部化、姿态对齐的部件上训练深度网络,相比全图CNN,即使在小样本数据集上也能取得更优性能。
- 开发一种通用且可重用的特征表示,使其在不同属性预测任务和数据集间具有泛化能力。
提出的方法
- 该方法使用姿态部件——在关键点标注图像上训练的部件检测器——在特定姿态下定位语义上有意义的身体部位(如面部、躯干)。
- 针对每个姿态部件,在检测到的部件中心的裁剪图像块上分别训练一个深度CNN,学习姿态归一化的特征。
- 将所有姿态部件专用CNN的顶层激活值拼接,形成统一的、姿态对齐的深度表征。
- 使用在线性SVM分类器在拼接后的姿态归一化特征上进行最终的属性预测。
- 采用两阶段流水线端到端训练该框架:首先从关键点数据中学习姿态部件;其次在生成的图像块上训练部件专用CNN。
- 该方法可扩展以使用其他部件检测器(如DPM部件),并支持跨数据集的特征重用。
实验结果
研究问题
- RQ1将基于部件的定位与深度CNN结合,是否能提升在大姿态和视角变化下的属性识别性能?
- RQ2在姿态归一化的图像块上训练CNN是否能带来比在全人图像边界框上训练更好的特征学习效果,尤其是在数据有限的情况下?
- RQ3PANDA在真实世界、非约束的属性数据集上的性能与最先进整体CNN和基于部件的模型相比如何?
- RQ4使用多个冗余的姿态部件检测器在多大程度上能提升属性预测的鲁棒性和准确性?
- RQ5姿态归一化的深度表征在不重新训练的情况下,能否在不同数据集和属性类型间实现泛化?
主要发现
- 在Labeled Faces in the Wild (LFW)数据集上,PANDA在性别识别任务中实现了99.54%的平均精度,显著优于此前最先进方法(Simile为95.52%,正面人脸姿态部件为96.43%)。
- 在伯克利人物属性数据集上,PANDA实现了最先进性能,展现出在姿态和视角变化下对性别、发型和着装风格等属性分类的卓越准确性。
- 即使仅有23.5K个训练样本,PANDA仍优于在90K个样本上训练的全图CNN(DL Pure),表明姿态对齐可实现更高效的特征学习。
- PANDA的性能增益在遮挡和非正面视角等困难情况下最为显著,此时整体CNN难以捕捉细微的属性信号。
- 系统表明,结合多个基于姿态部件的分类器可提升鲁棒性,因为仅使用正面人脸姿态部件的性能低于完整PANDA系统,表明其学习到了互补的信号。
- PANDA的特征表示具有通用性和可迁移性,在CNN于其他数据集(Attribute-25K)上训练的情况下,仍能在性别识别任务上取得优异结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。