[论文解读] Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Identification
DuATM 引入双重注意力机制来细化并对齐用于图像和视频行人重识别的上下文感知特征序列,优于此前的注意力和基于序列的方法。它使用带辅助损失的孪生/三元训练设置,在 Market-1501、DukeMTMC-reID 和 MARS 上达到最新性能。
Typical person re-identification (ReID) methods usually describe each pedestrian with a single feature vector and match them in a task-specific metric space. However, the methods based on a single feature vector are not sufficient enough to overcome visual ambiguity, which frequently occurs in real scenario. In this paper, we propose a novel end-to-end trainable framework, called Dual ATtention Matching network (DuATM), to learn context-aware feature sequences and perform attentive sequence comparison simultaneously. The core component of our DuATM framework is a dual attention mechanism, in which both intra-sequence and inter-sequence attention strategies are used for feature refinement and feature-pair alignment, respectively. Thus, detailed visual cues contained in the intermediate feature sequences can be automatically exploited and properly compared. We train the proposed DuATM network as a siamese network via a triplet loss assisted with a de-correlation loss and a cross-entropy loss. We conduct extensive experiments on both image and video based ReID benchmark datasets. Experimental results demonstrate the significant advantages of our approach compared to the state-of-the-art methods.
研究动机与目标
- 激励单一特征向量的 ReID 表示在外观变化和遮挡下的局限性。
- 提出一个端到端框架,学习上下文感知的特征序列并执行注意力序列匹配。
- 引入一个双重注意力机制以细化序列内特征并对齐序列间对。
- 在图像和视频 ReID 基准上进行评价,以展示相对于当前方法的性能提升。
提出的方法
- 使用 DenseNet-121 骨干网络(图像)提取特征序列,或在视频中使用 DenseNet-121 加双向时间建模提取特征序列。
- 应用双重注意力块,对成对的每个特征执行序列内细化和序列间对齐。
- 计算经细化与对齐的特征之间的成对距离,并聚合为整条序列的距离。
- 在孪生设置下使用三元损失对网络进行训练,并添加去相关化和交叉熵辅助损失以提升紧凑性和辨别性。
- 使用数据增强和困难三元组挖掘来解决训练数据不平衡问题。
- 用 SGD 进行优化,微调 DenseNet,并使用 CMC 和 mAP 指标进行评估。
实验结果
研究问题
- RQ1双重序列内细化和序列间对齐是否能提高对 ReID 的特征序列错位和损坏的鲁棒性?
- RQ2辅助损失(去相关化和交叉熵)是否为上下文感知序列表示带来实质性改进?
- RQ3相对于最先进方法,DuATM 在图像和基于视频的 ReID 基准上的表现如何?
- RQ4序列长度、特征维度和训练参数对性能的影响是什么?
主要发现
| 方法 | R1 | mAP |
|---|---|---|
| Market-1501: DuATM (reported) | 91.42 | 76.62 |
| DukeMTMC-reID: DuATM (reported) | 81.82 | 64.58 |
| MARS: DuATM (reported) | 78.74 | 62.26 |
- DuATM 结合序内和序间注意力,在 Market-1501、DukeMTMC-reID 和 MARS 上均优于 AvePool+ 基线。
- 添加去相关化和交叉熵损失带来进一步提升,其中交叉熵由于身份监督而带来显著改善。
- 消融实验表明双注意力(同时具备序内和序间注意力)优于仅使用单一注意力类型。
- DuATM 在 Market-1501(R1 91.42,mAP 76.62)、DukeMTMC-reID(R1 81.82,mAP 64.58)和 MARS(R1 78.74,mAP 62.26)上达到最好表现。
- 在 MARS 上,较长的视频序列长度 T 能显著提升 mAP(例如,从 T=1 时的 21.87% 提升到 T=96 时的 59.42%)。
- 可视化显示序内注意力聚焦于上下文相关的身体部位,而序间注意力在序列之间对齐语义上一致的部位。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。