[论文解读] Attributes Guided Feature Learning for Vehicle Re-identification
提出一个统一的深度学习框架(DF-CVTC),通过摄像头视图、车辆类型和颜色引导深度特征学习用于车辆再识别,在 VeRi-776 和 VehicleID 上达到新的 state-of-the-art。
Vehicle Re-ID has recently attracted enthusiastic attention due to its potential applications in smart city and urban surveillance. However, it suffers from large intra-class variation caused by view variations and illumination changes, and inter-class similarity especially for different identities with the similar appearance. To handle these issues, in this paper, we propose a novel deep network architecture, which guided by meaningful attributes including camera views, vehicle types and colors for vehicle Re-ID. In particular, our network is end-to-end trained and contains three subnetworks of deep features embedded by the corresponding attributes (i.e., camera view, vehicle type and vehicle color). Moreover, to overcome the shortcomings of limited vehicle images of different views, we design a view-specified generative adversarial network to generate the multi-view vehicle images. For network training, we annotate the view labels on the VeRi-776 dataset. Note that one can directly adopt the pre-trained view (as well as type and color) subnetwork on the other datasets with only ID information, which demonstrates the generalization of our model. Extensive experiments on the benchmark datasets VeRi-776 and VehicleID suggest that the proposed approach achieves the promising performance and yields to a new state-of-the-art for vehicle Re-ID.
研究动机与目标
- 推动车辆 Re-ID,解决由视角变化引起的大内类内变异以及由相似外观导致的类间相似性。
- 提出一个端到端架构,将摄像视角、车辆类型和颜色嵌入到特征学习中,以提升判别性。
- 证明属性引导的特征在跨数据集上具备泛化能力,通过在 VeRi-776 上训练并迁移到 VehicleID。
提出的方法
- 一个骨干网络(ResNet-50 的前三个块)在各任务之间共享。
- 三个属性子网络(视图、类型、颜色)预测各自的 Softmax 分布并对专门特征提取器加权。
- 来自属性单元的特征图通过逐元素运算融合,形成 F = F_view ⊕ F_type ⊕ F_color。
- 一个包含两层全连接层的嵌入网络将融合后的特征映射到 F_joint,随后进行 ID softmax 训练。
- 训练采用渐进方式:先用相应的损失训练每个属性子网络,然后再用 ID 损失进行联合微调。
- 模型采用 Adam 优化器训练,mini-batches 为 16,数据增强通过随机二维平移,输入尺寸为 256×256。
实验结果
研究问题
- RQ1在一个统一的端到端框架中结合摄像视图、车辆类型和颜色,是否可以提高车辆重识别的性能?
- RQ2逐步训练的视图/类型/颜色子网络是否比单任务基线产生更好的表征?
- RQ3在不同属性可用性的数据集(VeRi-776 与 VehicleID)之间,属性引导学习的泛化能力如何?
主要发现
- DF-CVTC 在 VeRi-776 上达到最新最优性能,mAP 61.06,rank-1 91.36,rank-5 95.77。
- 在 VehicleID 数据集上,使用全部三个属性子网络的 DF-CVTC 在 Test Size 800 达到 mAP 78.03/75.23/88.11,Test Size 1600 为 74.87/72.15/84.37,Test Size 2400 为 73.15/70.46/82.13。
- 逐步加入视图子网络、再加入类型子网络、最后加入颜色子网络,指标相对于 ResNet-50 基线持续提升。
- 通过 CAM 的可视化显示,当加入子网络时,注意力转向对视图判别、对类型判别、对颜色判别的区域。
- 属性子网络可以在 VeRi-776 上进行预训练并迁移到仅提供 ID 标签的其他数据集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。