[论文解读] TransReID: Transformer-based Object Re-Identification
TransReID 提出了一种用于对象 ReID 的纯 Transformer 框架,引入 jigsaw patch module (JPM) 和 side information embeddings (SIE),在行人和车辆 ReID 基准测试上实现了最先进的结果。
Extracting robust feature representation is one of the key challenges in object re-identification (ReID). Although convolution neural network (CNN)-based methods have achieved great success, they only process one local neighborhood at a time and suffer from information loss on details caused by convolution and downsampling operators (e.g. pooling and strided convolution). To overcome these limitations, we propose a pure transformer-based object ReID framework named TransReID. Specifically, we first encode an image as a sequence of patches and build a transformer-based strong baseline with a few critical improvements, which achieves competitive results on several ReID benchmarks with CNN-based methods. To further enhance the robust feature learning in the context of transformers, two novel modules are carefully designed. (i) The jigsaw patch module (JPM) is proposed to rearrange the patch embeddings via shift and patch shuffle operations which generates robust features with improved discrimination ability and more diversified coverage. (ii) The side information embeddings (SIE) is introduced to mitigate feature bias towards camera/view variations by plugging in learnable embeddings to incorporate these non-visual clues. To the best of our knowledge, this is the first work to adopt a pure transformer for ReID research. Experimental results of TransReID are superior promising, which achieve state-of-the-art performance on both person and vehicle ReID benchmarks.
研究动机与目标
- 动机:克服 CNN 在全局上下文建模和细粒度细节保留方面的局限性,以提升 ReID。
- 开发基于纯 Transformer 的 ReID 框架,使其达到甚至超过基于 CNN 的方法。
- 引入机制以提升对遮挡、对齐误差以及摄像头/视角变化的鲁棒性。
- 在端到端可训练系统中展示两种新模块 JPM 和 SIE 的有效性。
提出的方法
- 将图像编码为重叠补丁的序列,并用 Transformer 处理以捕获全局上下文。
- 采用双分支设计:全局特征分支和基于 JPM 的局部特征分支,二者共享 Transformer 层。
- 引入 Jigsaw Patch Module (JPM),通过移位和打乱补丁嵌入来生成多样且鲁棒的局部特征。
- 整合 Side Information Embeddings (SIE),将摄像头和视角信息编码为可学习的嵌入。
- 对全局和局部特征同时使用 ID loss 和 triplet loss 进行训练,并在推理时将两者融合。
实验结果
研究问题
- RQ1纯 Transformer 主干是否能在行人和车辆 ReID 上取得与基于 CNN 的模型相竞争的性能?
- RQ2JPM 和 SIE 是否能提高在 ReID 中对遮挡、错位和跨摄像头/视角变化的鲁棒性?
- RQ3重叠补丁和全局-局部联合学习对 ReID 性能的影响如何?
- RQ4摄像头/视角端信息嵌入对标准 ReID 基准测试性能的贡献有多大?
主要发现
- 纯 Transformer 基线在 ReID 性能方面已与 CNN 主干具有竞争力。
- 加入 JPM 能带来显著提升(例如,在 MSMT17 上比基线提升 +2.6% mAP,在 VeRi-776 上提升 +1.0% mAP)。
- 引入 SIE 可降低跨摄像头/视角的偏差,并进一步提升 mAP(例如 MSMT17 在摄像头和视角编码下的增益)。
- 使用 JPM 和 SIE 的 TransReID 在 MSMT17 上达到 64.9 mAP 和 83.3 R1,在 VeRi-776 上达到 80.6 mAP 和 96.9 R1。
- 与之前的最先进方法相比,TransReID 的变体在包括 MSMT17、Market-1501、DukeMTMC-reID、Occluded-Duke、VeRi-776 和 VehicleID 在内的多个基准上达到最先进的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。