[论文解读] SVDNet for Pedestrian Retrieval
SVDNet 通过迭代的基于SVD的去相关(RRI)对CNN的最后一个全连接层进行去相关,提升在 Market-1501、CUHK03 与 DukeMTMC-reID 的行人再识别准确率。
This paper proposes the SVDNet for retrieval problems, with focus on the application of person re-identification (re-ID). We view each weight vector within a fully connected (FC) layer in a convolutional neuron network (CNN) as a projection basis. It is observed that the weight vectors are usually highly correlated. This problem leads to correlations among entries of the FC descriptor, and compromises the retrieval performance based on the Euclidean distance. To address the problem, this paper proposes to optimize the deep representation learning process with Singular Vector Decomposition (SVD). Specifically, with the restraint and relaxation iteration (RRI) training scheme, we are able to iteratively integrate the orthogonality constraint in CNN training, yielding the so-called SVDNet. We conduct experiments on the Market-1501, CUHK03, and Duke datasets, and show that RRI effectively reduces the correlation among the projection vectors, produces more discriminative FC descriptors, and significantly improves the re-ID accuracy. On the Market-1501 dataset, for instance, rank-1 accuracy is improved from 55.3% to 80.5% for CaffeNet, and from 73.8% to 82.3% for ResNet-50.
研究动机与目标
- 通过解决分类训练后 FC 层权重向量的冗余来推动再识别研究。
- 提出一种去相关技术,在 FC 层中产生正交投影方向。
- 开发三步式约束与松弛迭代(RRI)训练,在逐步强制正交性的同时保持判别能力。
- 在大规模再识别基准上评估 SVDNet,并与最新方法进行比较。
提出的方法
- 将倒数第二个 FC 层表示为一个特征层(Eigenlayer),其权重矩阵通过 SVD 获得的正交矩阵。
- 用 US 替换 W(W = USV^T),以在保持嵌入判别能力的同时去相关投影方向。
- 应用三步训练循环:(1) 通过 SVD 去相关(W ← US);(2) 通过在固定 Eigenlayer 的情况下进行微调来实现约束;(3) 在 Eigenlayer 不固定的情况下继续微调以实现松弛;对多轮 RRIs 重复。
- 在最终 FC 层之前使用一个 Eigenlayer(无偏置;线性)以强制正交性,并为基于欧氏距离的检索生成改进的嵌入。
- 采用 CaffeNet 和 ResNet-50 作为骨干网络进行评估,改变 Eigenlayer 维度(实验中为 1024),并使用 1024 维嵌入进行检索。
实验结果
研究问题
- RQ1通过 SVD 对倒数第二个 FC 层进行去相关,是否能够在不牺牲判别性的前提下提高基于欧氏距离的再识别检索?
- RQ2迭代的约束-松弛训练是否收敛到正交权重矩阵并带来持续的性能提升?
- RQ3Eigenlayer 的正交性如何同时影响输入与输出嵌入在再识别任务中的表现?
主要发现
- 与基线相比,SVDNet 在 Market-1501、CUHK03 和 DukeMTMC-reID 上显著提升了 rank-1 和 mAP。
- 在 Market-1501 使用 CaffeNet 时,FC6 的 rank-1 从 55.3% 提升到 80.5%,mAP 从 30.4% 提升到 55.9%;对 FC7,rank-1 从 54.6% 提升到 79.0%,mAP 从 30.3% 提升到 54.6%。
- 在 ResNet-50 上,SVDNet 相对于基线取得显著提升(例如 DukeMTMC-reID rank-1 76.7%,mAP 56.8%;Market-1501 82.3/62.1)。
- 用 US 替换 W 能保持判别能力并改善去相关性,而其他去相关方法会降低性能。
- SVDNet 在实际中在有限的 RRIs 数量内收敛(如 ResNet-50 为 7 次 RRIs,CaffeNet 为 25 次 RRIs),并使用相关性指标 S(W) 来监控正交性(S(W) 收敛至趋向 1/k)。
- Eigenlayer 的输出维度在性能与冗余之间取得平衡,维度超过最优值后性能下降之前达到峰值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。