[论文解读] Region-based Quality Estimation Network for Large-scale Person Re-identification
本文提出了一种基于区域的质量评估网络(RQEN),用于基于视频的人重新识别,该网络联合学习评估跨帧空间区域的质量,并在序列中聚合来自高质量区域的互补信息。RQEN 在 PRID 2011 上实现了最先进性能(top-1 准确率提升 1.5%),在 iLIDS-VID 上实现了最先进性能(top-1 准确率提升 9.1%),同时引入了大规模、清晰的 LPW 数据集,包含 7,694 个轨迹和 590,000 张图像,用于更真实的基准测试。
One of the major restrictions on the performance of video-based person re-id is partial noise caused by occlusion, blur and illumination. Since different spatial regions of a single frame have various quality, and the quality of the same region also varies across frames in a tracklet, a good way to address the problem is to effectively aggregate complementary information from all frames in a sequence, using better regions from other frames to compensate the influence of an image region with poor quality. To achieve this, we propose a novel Region-based Quality Estimation Network (RQEN), in which an ingenious training mechanism enables the effective learning to extract the complementary region-based information between different frames. Compared with other feature extraction methods, we achieved comparable results of 92.4%, 76.1% and 77.83% on the PRID 2011, iLIDS-VID and MARS, respectively. In addition, to alleviate the lack of clean large-scale person re-id datasets for the community, this paper also contributes a new high-quality dataset, named "Labeled Pedestrian in the Wild (LPW)" which contains 7,694 tracklets with over 590,000 images. Despite its relatively large scale, the annotations also possess high cleanliness. Moreover, it's more challenging in the following aspects: the age of characters varies from childhood to elderhood; the postures of people are diverse, including running and cycling in addition to the normal walking state.
研究动机与目标
- 解决由于遮挡、模糊和光照变化等部分噪声导致的人重新识别性能下降问题。
- 通过选择性地利用跨帧的高质量区域,改善视频序列中的特征聚合。
- 开发一种动态评估区域图像质量的方法,而非对整个帧进行统一处理。
- 缓解训练和评估中缺乏大规模、清晰且真实的人重新识别数据集的问题。
- 提供一个反映真实世界挑战(如不同年龄、姿势和复杂场景)的基准数据集。
提出的方法
- RQEN 采用双流架构,包含一个区域特征生成模块和一个基于区域的质量预测器,通过分类和验证信号端到端训练。
- 网络采用一种新颖的梯度设计,实现特征提取与质量评估的联合优化,使模型能够学习哪些区域最可靠用于表征。
- 按空间区域预测质量分数,并在序列级聚合过程中用于加权特征贡献,突出高置信度区域,抑制噪声区域。
- 该方法应用多级特征学习,以捕捉不同感受野下的层次化表征,增强对遮挡和形变的鲁棒性。
- 模型通过交叉熵损失(用于身份分类)和三元组损失(用于度量学习)的组合进行训练,实现稳健的特征区分。
实验结果
研究问题
- RQ1基于区域的质量评估机制是否能在部分遮挡和噪声条件下提升基于视频的人重新识别的特征表征?
- RQ2跨帧的高质量区域所携带的互补信息,能否有效补偿序列中低质量区域的缺陷?
- RQ3与平均池化或帧级加权等现有聚合方法相比,所提出的 RQEN 在复杂序列中表现如何?
- RQ4该质量评估机制在包含多样化姿势、年龄和场景复杂度的大规模真实数据集上的表现如何?
- RQ5所提出的 LPW 数据集能否作为更真实且更具挑战性的训练和评估基准?
主要发现
- 在 PRID 2011 上,RQEN 实现了 91.8% 的 top-1 准确率,相比之前最先进方法提升 1.5%。
- 在 iLIDS-VID 上,RQEN 实现了 77.1% 的 top-1 准确率,相比之前最先进方法提升 9.1%,显示出对部分遮挡的强大鲁棒性。
- 在 MARS 数据集上,RQEN 实现了 77.83% 的 top-1 准确率,与最先进方法相当,尽管存在边界框对齐问题。
- 在新引入的 LPW 数据集上,RQEN 相比基线模型 top-1 准确率提升 15.6%,证实其在大规模、真实数据上的有效性。
- 消融实验表明,质量模块(+QM)显著提升性能,而固定质量估计(+QFix)和参数增加(+MP)的结果较弱,验证了端到端学习质量评分的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。