[论文解读] Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns
该论文提出 TFusion,一种无监督跨数据集行人重识别方法,通过学习行人的时空模式,将小规模带标签源数据集上的视觉分类器迁移至无标签目标数据集。该方法利用贝叶斯模型将这些时空模式与视觉特征融合,并通过基于学习排序的相互促进机制迭代提升性能,在 GRID 和 Market1501 等真实世界数据集上实现了与监督方法相当的最先进性能。
Most of the proposed person re-identification algorithms conduct supervised training and testing on single labeled datasets with small size, so directly deploying these trained models to a large-scale real-world camera network may lead to poor performance due to underfitting. It is challenging to incrementally optimize the models by using the abundant unlabeled data collected from the target domain. To address this challenge, we propose an unsupervised incremental learning algorithm, TFusion, which is aided by the transfer learning of the pedestrians' spatio-temporal patterns in the target domain. Specifically, the algorithm firstly transfers the visual classifier trained from small labeled source dataset to the unlabeled target dataset so as to learn the pedestrians' spatial-temporal patterns. Secondly, a Bayesian fusion model is proposed to combine the learned spatio-temporal patterns with visual features to achieve a significantly improved classifier. Finally, we propose a learning-to-rank based mutual promotion procedure to incrementally optimize the classifiers based on the unlabeled data in the target domain. Comprehensive experiments based on multiple real surveillance datasets are conducted, and the results show that our algorithm gains significant improvement compared with the state-of-art cross-dataset unsupervised person re-identification algorithms.
研究动机与目标
- 解决在大规模真实世界摄像头网络中部署监督行人 Re-ID 模型时标注不切实际的挑战。
- 通过利用大量无标注监控数据(无需人工标注)来提升无标签目标数据集上的性能。
- 通过整合从无标签数据中学到的时空运动模式,弥合监督与无监督 Re-ID 之间的性能差距。
- 开发一种相互学习框架,利用无标签数据逐步优化视觉分类器与融合分类器。
提出的方法
- 以无监督方式将小规模带标签源数据集上训练的视觉分类器迁移至无标签目标数据集,以学习行人的时空模式。
- 构建一个贝叶斯融合模型,将学习到的时空模式与视觉特征结合,形成更鲁棒的 Re-ID 分类器。
- 实施一种基于学习排序的相互促进程序,其中融合模型利用无标签数据上的排序结果来指导视觉分类器的优化。
- 在反馈循环中迭代更新视觉分类器与融合分类器,随时间推移提升泛化能力与性能。
- 在贝叶斯模型中使用可调融合参数 α 和 β,满足 α+β<1,以平衡视觉特征与时空模式的贡献。
- 在无监督跨数据集迁移和监督微调两种模式下应用模型,以评估其鲁棒性与性能。
实验结果
研究问题
- RQ1从无标签监控数据中学到的时空模式是否能显著提升跨数据集设置下的行人重识别性能?
- RQ2贝叶斯融合模型在结合视觉特征与无监督时空模式用于 Re-ID 时效果如何?
- RQ3视觉分类器与融合分类器之间的基于学习排序的相互促进机制是否能在无标签条件下实现性能的逐步提升?
- RQ4无监督迁移方法在多大程度上能匹配或超越最先进监督 Re-ID 模型的性能?
主要发现
- TFusion 在所有测试数据集(包括 VIPeR、GRID、CUHK01 和 Market1501)上均大幅超越最先进无监督跨数据集迁移方法 [21]。
- 在 GRID 数据集上,当从 Market1501 进行迁移时,TFusion 实现了 63.2% 的 rank-1 准确率,超过了同一数据集上的监督最先进模型。
- 无监督 TFusion 模型的性能非常接近其监督变体(TFusion-sup),表明在目标域中有效利用了无标签数据。
- 当 α=0.25 且 β=0 时,融合模型达到最优性能,表明在适当前置权重下,时空模式具有显著贡献。
- 学习排序优化在三次迭代后性能收敛,表明在实际部署中三次迭代已足够。
- 该方法在多样化数据集上泛化良好,尤其在 GRID 数据集上表现突出,得益于其地铁环境中独特的行人运动模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。