[论文解读] Orientation Driven Bag of Appearances for Person Re-identification
本文提出了一种新颖的特征表示框架——方向驱动外观袋(ODBoA),通过整合人体结构与方向信息,用于行人重识别。该方法利用人体结构金字塔进行中级特征学习,并基于方向融合多视角外观,显著提升了在复杂、非约束数据集上的性能。
Person re-identification (re-id) consists of associating individual across camera network, which is valuable for intelligent video surveillance and has drawn wide attention. Although person re-identification research is making progress, it still faces some challenges such as varying poses, illumination and viewpoints. For feature representation in re-identification, existing works usually use low-level descriptors which do not take full advantage of body structure information, resulting in low representation ability. %discrimination. To solve this problem, this paper proposes the mid-level body-structure based feature representation (BSFR) which introduces body structure pyramid for codebook learning and feature pooling in the vertical direction of human body. Besides, varying viewpoints in the horizontal direction of human body usually causes the data missing problem, $i.e.$, the appearances obtained in different orientations of the identical person could vary significantly. To address this problem, the orientation driven bag of appearances (ODBoA) is proposed to utilize person orientation information extracted by orientation estimation technic. To properly evaluate the proposed approach, we introduce a new re-identification dataset (Market-1203) based on the Market-1501 dataset and propose a new re-identification dataset (PKU-Reid). Both datasets contain multiple images captured in different body orientations for each person. Experimental results on three public datasets and two proposed datasets demonstrate the superiority of the proposed approach, indicating the effectiveness of body structure and orientation information for improving re-identification performance.
研究动机与目标
- 解决低层次描述符在行人重识别中的局限性,这些描述符对姿态、光照和视角变化敏感。
- 克服因人体方向变化导致的数据缺失问题,即同一人的外观在不同视角下差异显著。
- 通过利用中级人体结构与方向信息改进特征表示,增强对空间错位和背景噪声的鲁棒性。
- 开发一种基于方向的多视角重识别框架,通过方向感知的特征融合缓解监控场景中的数据不平衡问题。
- 提出两个新数据集Market-1203和PKU-Reid,以更有效地评估方向感知的重识别方法。
提出的方法
- 引入人体结构金字塔,编码垂直人体部位信息(如头部、躯干、腿部),以改善词袋学习与特征池化。
- 使用局部约束线性编码(LLC)将低层次描述符转换为对空间错位具有鲁棒性的中级表示。
- 提出方向驱动外观袋(ODBoA),通过引入行人方向估计来引导多视角特征融合。
- 利用方向感知池化在多个视角间融合中级特征,将每种方向视为独立视图,以减少不匹配外观带来的噪声。
- 在特征层面而非决策层面进行中级特征融合,以保留判别性信息并降低维度。
- 设计一种度量学习框架,利用方向信息解决1对N和M对1匹配场景中的歧义,尤其在数据不平衡条件下表现更优。
实验结果
研究问题
- RQ1基于人体结构的中级特征表示是否能在姿态和视角变化下提升行人重识别性能?
- RQ2整合行人方向信息在多角度下如何减少外观变化的影响?
- RQ3方向感知的多视角融合在多大程度上能缓解监控重识别中的数据缺失与数据不平衡问题?
- RQ4所提出的ODBoA框架是否在具有多样化方向与复杂场景的数据集中优于最先进方法?
- RQ5基于人体结构的特征学习与方向驱动融合的结合在真实监控场景中效果如何?
主要发现
- 所提出的ODBoA-Mid-Pooling方法在3DPeS数据集上达到55.8%的Rank-1准确率,比之前最先进方法Dual高出3.2个百分点。
- 在Market-1203数据集上,从1对1匹配到4对4匹配的性能显著提升,表明对多视角融合具有强鲁棒性。
- 利用方向信息可将1对N匹配场景中的噪声降低,相比非方向感知方法,准确率最高提升15%。
- 在3DPeS数据集上,该方法达到79.0%的Rank-5和87.9%的Rank-10准确率,表明在复杂光照、姿态和时间变化下具有强大泛化能力。
- Mid-Pooling的准确率矩阵呈现非对称性(如1对N与M对1对比),证实方向感知融合能有效减少背景噪声与错位外观带来的干扰。
- Market-1203与PKU-Reid数据集的引入,使方向感知重识别的评估更加真实,两个数据集均包含同一人不同方向的多张图像。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。