QUICK REVIEW

[论文解读] WIDER Face and Pedestrian Challenge 2018: Methods and Results

Chen Change Loy, Dahua Lin|arXiv (Cornell University)|Feb 19, 2019

Face recognition and analysis参考文献 28被引用 28

一句话总结

本文介绍了2018年WIDER Face与行人检测挑战赛的获奖方法及结果，该挑战赛在三个赛道上评估了人脸检测、行人检测与人员检索任务。研究重点展示了先进的单阶段检测器、多尺度特征融合技术，以及结合人脸与身体Re-ID特征的两阶段重排序框架，实现了WIDER Face数据集上55.82%的mAP（最先进水平），并在人员检索任务中表现优异，通过融合人脸与身体相似度得分取得最佳性能。

ABSTRACT

This paper presents a review of the 2018 WIDER Challenge on Face and Pedestrian. The challenge focuses on the problem of precise localization of human faces and bodies, and accurate association of identities. It comprises of three tracks: (i) WIDER Face which aims at soliciting new approaches to advance the state-of-the-art in face detection, (ii) WIDER Pedestrian which aims to find effective and efficient approaches to address the problem of pedestrian detection in unconstrained environments, and (iii) WIDER Person Search which presents an exciting challenge of searching persons across 192 movies. In total, 73 teams made valid submissions to the challenge tracks. We summarize the winning solutions for all three tracks. and present discussions on open problems and potential research directions in these topics.

研究动机与目标

在尺度、姿态、遮挡与光照等极端变化的非约束条件下，推动人脸与行人检测的最先进性能。
解决在192段视频中通过人脸与身体特征准确检索身份的人员检索挑战。
在统一基准下评估并比较多种深度学习架构与训练策略在三个独立计算机视觉任务中的表现。
识别当前方法的局限性，并提出未来研究方向，特别是统一特征学习与场景上下文融合方面。

提出的方法

采用具有多尺度特征融合与先进头部设计的单阶段人脸检测器，结合FPN与焦点损失等技术，提升小尺寸人脸的检测精度。
使用MTCNN与PCN作为现成的人脸检测器，结合深度度量学习（ArcFace、Ring loss）以实现鲁棒的人脸嵌入学习。
采用SE-ResNeXt50并加入残差注意力模块进行身体特征提取，通过同时使用softmax与ring loss进行训练，以提升行人重识别性能。
实施两阶段检索流程：首先利用人脸识别检索候选图像，再通过身体Re-ID特征进行重排序，以提升非正脸或遮挡人员的召回率。
应用k-互惠重排序技术，优化查询图像与图库图像之间的相似度得分，提升top-k检索性能。
在得分层面通过加权平均融合人脸与身体相似度得分，以提升最终人员检索的准确性。

实验结果

研究问题

RQ1在尺度与遮挡极端变化条件下，哪些深度学习架构与训练技术在人脸检测中表现最佳？
RQ2在姿态多变、光照复杂与背景杂乱的非约束环境中，如何有效优化行人检测？
RQ3当查询图像仅包含人脸而图库图像可能缺乏正面视图时，人员检索的最佳策略是什么？
RQ4联合建模人脸与身体特征是否能提升检索准确性，相比单独使用任一模态？
RQ5当前两阶段框架在人员检索中的关键局限是什么？哪些统一架构可进一步提升性能？

主要发现

获奖的人脸检测方案在WIDER Face的hard数据集上实现了55.82%的mAP，显著优于以往方法，得益于多尺度特征融合与先进头部设计。
表现最佳的行人检测系统采用单阶段检测器结合FPN与焦点损失，在多样化行人外观与尺度下展现出强大的泛化能力。
在人员检索任务中，第三名方案通过结合人脸识别进行初始候选检索与身体Re-ID进行重排序，最终通过相似度融合实现mAP显著提升。
在深度度量网络中采用多损失训练（softmax + ring loss）可生成更具判别力的人脸与身体嵌入，提升跨模态匹配性能。
采用k-互惠编码进行重排序显著提升了人员检索中的top-1与top-5准确率，尤其对困难负样本效果明显。
尽管性能优异，但尚未提出统一的联合人脸与身体特征学习模型，表明这是未来研究的关键开放挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。