QUICK REVIEW

[论文解读] Deep Metric Learning for Practical Person Re-Identification

Yi Dong, Zhen Lei|arXiv (Cornell University)|Jul 18, 2014

Video Surveillance and Tracking Methods参考文献 32被引用 138

一句话总结

本文提出深度度量学习（DML），一种孪生卷积神经网络，能够从原始像素中联合学习颜色、纹理和相似度度量，用于行人重识别。通过使用二项偏差损失和余弦相似度，DML 在 VIPeR 和 PRID2011 数据集的跨数据集和同数据集设置下均取得了最先进性能，展现出对领域偏移的强大泛化能力。

ABSTRACT

Various hand-crafted features and metric learning methods prevail in the field of person re-identification. Compared to these methods, this paper proposes a more general way that can learn a similarity metric from image pixels directly. By using a "siamese" deep neural network, the proposed method can jointly learn the color feature, texture feature and metric in a unified framework. The network has a symmetry structure with two sub-networks which are connected by Cosine function. To deal with the big variations of person images, binomial deviance is used to evaluate the cost between similarities and labels, which is proved to be robust to outliers. Compared to existing researches, a more practical setting is studied in the experiments that is training and test on different datasets (cross dataset person re-identification). Both in "intra dataset" and "cross dataset" settings, the superiorities of the proposed method are illustrated on VIPeR and PRID.

研究动机与目标

解决由于姿态、光照、分辨率和视角变化导致的行人重识别中类内差异大和类间模糊的问题。
开发一种统一的深度学习框架，联合学习特征与度量，而非依赖手工设计的特征和独立的度量学习步骤。
评估模型在实际跨数据集重识别中的泛化能力，其中训练数据和测试数据来自不同的摄像头设置和分布。
通过使用二项偏差损失进行相似度学习，提升对异常值和领域偏移的鲁棒性。

提出的方法

使用具有共享或非共享子网络的孪生深度神经网络，从两张行人图像中提取特征。
采用余弦相似度作为两个子网络之间的连接函数，以计算最终的相似度得分。
应用二项偏差损失来衡量预测相似度与真实标签之间的差异，增强对噪声或异常样本的鲁棒性。
使用反向传播端到端优化整个网络，相似度和损失函数的梯度通过解析方式推导。
通过在子网络之间切换参数共享，支持视图特定和通用的行人重识别。
推导出损失函数相对于网络权重的闭式梯度，实现高效训练。

实验结果

研究问题

RQ1深度神经网络能否在行人重识别中从原始图像像素中联合学习判别性特征和鲁棒的相似度度量？
RQ2端到端深度度量学习与使用手工特征和独立度量学习的传统两阶段方法相比有何差异？
RQ3所提出的方法能否在测试数据分布与训练数据不同的未见数据集上实现有效泛化（即跨数据集重识别）？
RQ4使用二项偏差损失是否能提升行人重识别中对标签噪声和异常值的鲁棒性？
RQ5与替代架构相比，采用余弦相似度和共享权重的孪生结构在性能和泛化能力方面表现如何？

主要发现

所提出的 DML 方法在 VIPeR 和 PRID2011 数据集的标准同数据集评估协议下均取得优越性能，优于或匹配最先进方法。
在跨数据集重识别实验中——在 i-LIDS 和 CUHK Campus 上训练，在 VIPeR 和 PRID 上测试——DML 显著优于现有方法，展现出强大的领域泛化能力。
使用二项偏差损失可实现更鲁棒的训练，尤其在存在噪声或模糊样本时，提升了模型稳定性。
采用共享权重的孪生结构能够有效学习通用行人重识别的特征，而未共享权重则支持视图特定的适应。
通过反向传播端到端联合训练特征与度量，性能优于传统方法中先使用手工特征再单独进行度量学习的策略。
解析梯度推导实现了高效且稳定的优化，这对在小规模行人重识别数据集上训练深度孪生网络至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。