[论文解读] Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues
本文提出 PIPER,一种姿态不变的人体识别系统,通过结合深度卷积网络与基于姿态部件(poselet)的部件检测器,提升在非约束性照片相册中的人体识别性能,尤其在正面人脸稀少的场景下。通过融合来自多个身体部位、人脸检测与全局特征的线索,PIPER 在 581 个身份的测试中达到 83.05% 的准确率,并在存在正面人脸时相较 DeepFace 将错误率降低 40%。
We explore the task of recognizing peoples' identities in photo albums in an unconstrained setting. To facilitate this, we introduce the new People In Photo Albums (PIPA) dataset, consisting of over 60000 instances of 2000 individuals collected from public Flickr photo albums. With only about half of the person images containing a frontal face, the recognition task is very challenging due to the large variations in pose, clothing, camera viewpoint, image resolution and illumination. We propose the Pose Invariant PErson Recognition (PIPER) method, which accumulates the cues of poselet-level person recognizers trained by deep convolutional networks to discount for the pose variations, combined with a face recognizer and a global recognizer. Experiments on three different settings confirm that in our unconstrained setup PIPER significantly improves on the performance of DeepFace, which is one of the best face recognizers as measured on the LFW dataset.
研究动机与目标
- 解决在非约束性照片相册中正面人脸稀缺(通常低于 50% 的实例)时的人体识别挑战。
- 克服当前最先进的人脸识别器(如 DeepFace)在非正面或遮挡视角下失效的局限性。
- 开发一种鲁棒的、姿态不变的识别系统,利用超越人脸的多种视觉线索。
- 引入 People In Photo Albums (PIPA) 数据集,作为非约束性人体识别的大规模真实世界基准。
- 实现在低数据场景下的有效零样本学习与无监督身份检索。
提出的方法
- 提出 PIPER,一种多线索人体识别框架,结合姿态部件级身份分类器、人脸识别器与全局图像识别器的预测结果。
- 使用姿态部件(poselets)——用于常见身体构型(如侧身的头肩结构、双手叉腰)的部件检测器——以捕捉姿态不变的特征。
- 在姿态部件检测到的图像块上分别训练深度卷积网络,以学习每个部件的身份特异性特征。
- 通过学习的加权融合(公式 1)整合各姿态部件的预测结果,生成最终的身份得分,提升对姿态变化的鲁棒性。
- 在 PIPA 数据集上微调 Krizhevsky 风格的卷积神经网络,作为对比基线。
- 使用在验证集上训练的 SVM,生成用于无监督检索的紧凑 366 维身份特征向量。
实验结果
研究问题
- RQ1在正面人脸稀缺的非约束性照片相册中,基于多部件的姿态不变识别系统是否能显著优于基于正面人脸的模型?
- RQ2在姿态与视角变化下,融合基于部件的线索(姿态部件)、人脸检测与全局特征,在提升识别准确率方面有多高效?
- RQ3所提出的方法在仅有一个或少数几个训练样本的零样本学习场景下,其泛化能力如何?
- RQ4在未进行度量学习或显式检索训练的情况下,系统在无监督身份检索任务中的表现如何?
- RQ5像 PIPA 这样大规模的真实世界数据集,是否能实现有意义的基准测试并推动非约束性人体识别的发展?
主要发现
- PIPER 在 581 个身份的测试集上达到 83.05% 的准确率,显著优于全局基线与 DeepFace 在非约束设置下的表现。
- 在无正面人脸的子集上,PIPER 达到 71.8% 的准确率,而 DeepFace 仅 0.17%,表明其对缺失人脸具有强鲁棒性。
- 当正面人脸存在时,PIPER 将准确率从 DeepFace 的 89.3% 提升至 93.4%,相对错误率降低约 40%。
- 在零样本学习场景下,PIPER 仅用每个身份一个训练样本即达到 28.1% 的准确率,其学习速度与泛化能力优于全局 CNN 基线。
- 在无监督身份检索中,64% 的查询图像在 PIPER 的前 5 个最近邻中找到正确匹配,高于微调后的 ImageNet CNN 的 50%。
- 随着每个身份的训练样本数量增加,PIPER 的性能提升速度超过全局 CNN 基线,表明其具有更优的数据效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。