[论文解读] Semi-TCL: Semi-Supervised Track Contrastive Representation Learning
Semi-TCL 通过将检测到的实例与轨迹表示进行匹配,学习轨迹级对比嵌入,从而实现从带标签和未带标签的视频中进行半监督学习,以提升多目标跟踪的性能。
Online tracking of multiple objects in videos requires strong capacity of modeling and matching object appearances. Previous methods for learning appearance embedding mostly rely on instance-level matching without considering the temporal continuity provided by videos. We design a new instance-to-track matching objective to learn appearance embedding that compares a candidate detection to the embedding of the tracks persisted in the tracker. It enables us to learn not only from videos labeled with complete tracks, but also unlabeled or partially labeled videos. We implement this learning objective in a unified form following the spirit of constrastive loss. Experiments on multiple object tracking datasets demonstrate that our method can effectively learning discriminative appearance embeddings in a semi-supervised fashion and outperform state of the art methods on representative benchmarks.
研究动机与目标
- 为在线多目标跟踪 (MOT) 学习鲁棒的外观嵌入提供动机。
- 利用视频中的时间连续性,通过实例到轨迹匹配来改进实例表示。
- 通过利用伪标签的未标注视频实现半监督学习。
- 将 TCL 集成到基于 CenterNet 的端到端 MOT 框架中。
- 证明 Semi-TCL 在 MOT 基准上达到最先进的结果。
提出的方法
- 使用聚合 G 将轨迹片段嵌入进行汇聚,定义一个实例到轨迹的距离。
- 提出 Tracklet Contrastive Learning (TCL),在实例和子轨迹之间引入对比损失: L_TCL = sum_i (-1/|S(i)|) sum_{\tilde{T}_j in S(i)} exp(f(I_i) · g̃_j / τ) / sum_{\tilde{T}_l in \tilde{T}} exp(f(I_i) · g̃_l / τ)。
- 使用简单的平均聚合 G 以从轨迹片段特征计算 g_j。
- 通过从轨迹中采样子轨道并使用原始跟踪器生成伪标签,使用带标签和伪标签的未标注视频进行训练。
- 采用联合检测+ID损失 L_joint = L_det + L_id,其中 L_id 使用 TCL 进行训练。
实验结果
研究问题
- RQ1相比于实例对实例目标,实例到轨迹对比目标在 MOT 的外观嵌入学习中是否可以带来改进?
- RQ2TCL 是否能够利用未标注视频实现对 MOT 的有效半监督学习?
- RQ3批量大小和未标注视频数据的使用如何影响 MOT 性能?
- RQ4预训练策略(CE 与对比学习)对最终 MOT 性能有何影响?
- RQ5Semi-TCL 相对于现有方法,在标准 MOT 基准(IDF1、MOTA、IDS)上的表现如何?
主要发现
| Methods | IDF1 | MOTA | IDS | MT | ML | Frag |
|---|---|---|---|---|---|---|
| MOT15 FairMOT | 64.7 | 60.6 | 591 | 343 | 79 | 1731 |
| MOT15 GSDT | 64.6 | 60.7 | 477 | 339 | 76 | 1705 |
| MOT15 TubeTK | 53.1 | 58.4 | 854 | 283 | 130 | 1194 |
| MOT15 Semi-TCL | 64.9 | 60.6 | 551 | 344 | 88 | 1687 |
| MOT16 DeepSort | 62.2 | 61.4 | 781 | 249 | 138 | 2008 |
| MOT16 TubeTK | 59.4 | 64.0 | 1117 | 254 | 147 | 1366 |
| MOT16 CTracker | 57.2 | 67.6 | 1897 | 250 | 175 | 3112 |
| MOT16 GSDT | 69.2 | 66.7 | 959 | 293 | 144 | 2596 |
| MOT16 FairMOT | 72.8 | 74.9 | 815 | 306 | 127 | 2399 |
| MOT16 Semi-TCL | 73.9 | 74.8 | 925 | 322 | 130 | 2569 |
| MOT17 SST | 49.5 | 52.4 | 8431 | 504 | 723 | 14797 |
| MOT17 TubeTK | 58.6 | 63.0 | 4137 | 735 | 468 | 5727 |
| MOT17 Ctr.Track | 64.7 | 67.8 | 3039 | 816 | 579 | 6102 |
| MOT17 CTracker | 57.4 | 66.6 | 5529 | 759 | 570 | 9114 |
| MOT17 GSDT | 66.5 | 73.2 | 3891 | 981 | 411 | 8604 |
| MOT17 FairMOT | 72.3 | 73.7 | 3303 | 1017 | 408 | 8073 |
| MOT17 Semi-TCL | 73.3 | 73.3 | 2790 | 972 | 441 | 8010 |
| MOT20 FairMOT | 67.3 | 61.8 | 5243 | 855 | 94 | 7874 |
| MOT20 GSDT | 67.5 | 67.1 | 3131 | 660 | 164 | 9875 |
| MOT20 Semi-TCL | 70.1 | 65.2 | 4139 | 761 | 131 | 8508 |
- Semi-TCL 在 MOT15、MOT16、MOT17、MOT20 基准上实现了最先进的 IDF1。
- 在 MOT16 和 MOT17 上,Semi-TCL 比先前的 SOTA 提升了约 1% 的 IDF1。
- 在 MOT20 上,Semi-TCL 将 IDF1 从 67.5% 提升到 70.1%。
- 使用带轨迹密度的未标注视频进行挖掘可进一步提升 IDF1(如 AVA-MEVA 组合)。
- TCL 在 IDF1 上优于跨熵和实例到实例对比基线。
- 较大的批量大小(32、96、144)通常提升 IDF1 和 MOTA,表明更多对比对有助于学习。
- Semi-TCL 受益于半监督数据;对比预训练(SCL)带来比 CE 预训练更大的 IDF1 增益。
- 来自 MEVA/AVA 域且与 MOT 场景相似的未标注数据比不同域带来更大收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。