Skip to main content
QUICK REVIEW

[论文解读] Semi-TCL: Semi-Supervised Track Contrastive Representation Learning

Wei Li, Yuanjun Xiong|arXiv (Cornell University)|Jul 6, 2021
Face recognition and analysis参考文献 40被引用 33
一句话总结

Semi-TCL 通过将检测到的实例与轨迹表示进行匹配,学习轨迹级对比嵌入,从而实现从带标签和未带标签的视频中进行半监督学习,以提升多目标跟踪的性能。

ABSTRACT

Online tracking of multiple objects in videos requires strong capacity of modeling and matching object appearances. Previous methods for learning appearance embedding mostly rely on instance-level matching without considering the temporal continuity provided by videos. We design a new instance-to-track matching objective to learn appearance embedding that compares a candidate detection to the embedding of the tracks persisted in the tracker. It enables us to learn not only from videos labeled with complete tracks, but also unlabeled or partially labeled videos. We implement this learning objective in a unified form following the spirit of constrastive loss. Experiments on multiple object tracking datasets demonstrate that our method can effectively learning discriminative appearance embeddings in a semi-supervised fashion and outperform state of the art methods on representative benchmarks.

研究动机与目标

  • 为在线多目标跟踪 (MOT) 学习鲁棒的外观嵌入提供动机。
  • 利用视频中的时间连续性,通过实例到轨迹匹配来改进实例表示。
  • 通过利用伪标签的未标注视频实现半监督学习。
  • 将 TCL 集成到基于 CenterNet 的端到端 MOT 框架中。
  • 证明 Semi-TCL 在 MOT 基准上达到最先进的结果。

提出的方法

  • 使用聚合 G 将轨迹片段嵌入进行汇聚,定义一个实例到轨迹的距离。
  • 提出 Tracklet Contrastive Learning (TCL),在实例和子轨迹之间引入对比损失: L_TCL = sum_i (-1/|S(i)|) sum_{\tilde{T}_j in S(i)} exp(f(I_i) · g̃_j / τ) / sum_{\tilde{T}_l in \tilde{T}} exp(f(I_i) · g̃_l / τ)。
  • 使用简单的平均聚合 G 以从轨迹片段特征计算 g_j。
  • 通过从轨迹中采样子轨道并使用原始跟踪器生成伪标签,使用带标签和伪标签的未标注视频进行训练。
  • 采用联合检测+ID损失 L_joint = L_det + L_id,其中 L_id 使用 TCL 进行训练。

实验结果

研究问题

  • RQ1相比于实例对实例目标,实例到轨迹对比目标在 MOT 的外观嵌入学习中是否可以带来改进?
  • RQ2TCL 是否能够利用未标注视频实现对 MOT 的有效半监督学习?
  • RQ3批量大小和未标注视频数据的使用如何影响 MOT 性能?
  • RQ4预训练策略(CE 与对比学习)对最终 MOT 性能有何影响?
  • RQ5Semi-TCL 相对于现有方法,在标准 MOT 基准(IDF1、MOTA、IDS)上的表现如何?

主要发现

MethodsIDF1MOTAIDSMTMLFrag
MOT15 FairMOT64.760.6591343791731
MOT15 GSDT64.660.7477339761705
MOT15 TubeTK53.158.48542831301194
MOT15 Semi-TCL64.960.6551344881687
MOT16 DeepSort62.261.47812491382008
MOT16 TubeTK59.464.011172541471366
MOT16 CTracker57.267.618972501753112
MOT16 GSDT69.266.79592931442596
MOT16 FairMOT72.874.98153061272399
MOT16 Semi-TCL73.974.89253221302569
MOT17 SST49.552.4843150472314797
MOT17 TubeTK58.663.041377354685727
MOT17 Ctr.Track64.767.830398165796102
MOT17 CTracker57.466.655297595709114
MOT17 GSDT66.573.238919814118604
MOT17 FairMOT72.373.7330310174088073
MOT17 Semi-TCL73.373.327909724418010
MOT20 FairMOT67.361.85243855947874
MOT20 GSDT67.567.131316601649875
MOT20 Semi-TCL70.165.241397611318508
  • Semi-TCL 在 MOT15、MOT16、MOT17、MOT20 基准上实现了最先进的 IDF1。
  • 在 MOT16 和 MOT17 上,Semi-TCL 比先前的 SOTA 提升了约 1% 的 IDF1。
  • 在 MOT20 上,Semi-TCL 将 IDF1 从 67.5% 提升到 70.1%。
  • 使用带轨迹密度的未标注视频进行挖掘可进一步提升 IDF1(如 AVA-MEVA 组合)。
  • TCL 在 IDF1 上优于跨熵和实例到实例对比基线。
  • 较大的批量大小(32、96、144)通常提升 IDF1 和 MOTA,表明更多对比对有助于学习。
  • Semi-TCL 受益于半监督数据;对比预训练(SCL)带来比 CE 预训练更大的 IDF1 增益。
  • 来自 MEVA/AVA 域且与 MOT 场景相似的未标注数据比不同域带来更大收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。