[论文解读] Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive Person Re-Identification
本文提出了一种用于无监督域自适应行人重识别的联合视觉与时间一致性框架,利用自适应分类(SAC)实现局部小批量的独热标签化,并采用基于记忆的时间引导聚类(MTC)方法,将视觉相似性与时间一致性相结合,实现全局伪标签化。该方法取得了最先进性能,在仅训练100个周期的情况下,于无监督域自适应设置下的Market-1501数据集上达到86.8%的rank-1准确率。
Unsupervised domain adaptive person Re-IDentification (ReID) is challenging because of the large domain gap between source and target domains, as well as the lackage of labeled data on the target domain. This paper tackles this challenge through jointly enforcing visual and temporal consistency in the combination of a local one-hot classification and a global multi-class classification. The local one-hot classification assigns images in a training batch with different person IDs, then adopts a Self-Adaptive Classification (SAC) model to classify them. The global multi-class classification is achieved by predicting labels on the entire unlabeled training set with the Memory-based Temporal-guided Cluster (MTC). MTC predicts multi-class labels by considering both visual similarity and temporal consistency to ensure the quality of label prediction. The two classification models are combined in a unified framework, which effectively leverages the unlabeled data for discriminative feature learning. Experimental results on three large-scale ReID datasets demonstrate the superiority of proposed method in both unsupervised and unsupervised domain adaptive ReID tasks. For example, under unsupervised setting, our method outperforms recent unsupervised domain adaptive methods, which leverage more labels for training.
研究动机与目标
- 解决无监督域自适应行人重识别中领域差距大且缺乏标注数据的挑战。
- 通过在聚类中结合视觉相似性与时间一致性,提升伪标签质量。
- 减少因无标注目标域中视觉差异与难负样本导致的不可靠聚类。
- 通过最小监督的统一框架,实现高效且鲁棒的特征学习。
- 在训练周期数少于现有方法的情况下,实现最先进性能。
提出的方法
- 提出一种自适应分类(SAC)模型,为每个训练批次内的图像分配不同的独热标签,以增强局部类间分离性。
- 开发一种基于记忆的时间引导聚类(MTC)方法,利用视觉相似性与时间一致性联合预测全局多分类伪标签。
- 利用摄像头间的帧号间隔估计时间一致性,实现对视觉相似但时间不一致样本的自然过滤。
- 使用记忆库存储并更新增强后的特征,提升伪标签预测的鲁棒性与稳定性。
- 在统一框架中结合SAC与MTC,联合优化类内紧凑性与类间可分性。
- 通过平滑且可微的融合机制融合视觉与时间相似性,增强聚类鲁棒性。
实验结果
研究问题
- RQ1联合强制视觉与时间一致性是否能提升无监督行人重识别中的伪标签质量?
- RQ2与仅依赖视觉相似性相比,基于帧号间隔的时间一致性如何提升聚类鲁棒性?
- RQ3在小批量中采用自适应分类策略在无监督条件下,能在多大程度上增强局部特征判别力?
- RQ4所提方法在准确率与训练效率方面是否优于现有无监督及域自适应ReID方法?
- RQ5推理阶段的时间一致性是否能进一步提升性能,超越训练阶段的优化?
主要发现
- 所提JVTC方法在无监督域自适应设置下,于Market-1501数据集上达到86.8%的rank-1准确率,优于先前最先进方法。
- 在MSMT17上,当以DukeMTMC-reID作为源域时,JVTC达到52.9%的rank-1准确率,较SSG++高出11.3个百分点。
- 在推理阶段融合联合相似性(JVTC+)时,该方法在MSMT17上实现75.2%的mAP与81.2%的rank-1准确率,超过半监督方法SSG++。
- 该方法仅用100个训练周期即收敛,显著快于SSG所需的2100个周期,且性能更优。
- 时间一致性通过过滤视觉相似但时间不一致的样本,提升聚类效果,减少伪标签中的误报。
- 带有记忆库的MTC模块增强了特征鲁棒性,带来更可靠的全局聚类与更好的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。