QUICK REVIEW

[论文解读] Semi-TCL: Semi-Supervised Track Contrastive Representation Learning

Wei Li, Yuanjun Xiong|arXiv (Cornell University)|Jul 6, 2021

Face recognition and analysis参考文献 40被引用 33

一句话总结

Semi-TCL 通过将检测到的实例与轨迹表示进行匹配，学习轨迹级对比嵌入，从而实现从带标签和未带标签的视频中进行半监督学习，以提升多目标跟踪的性能。

ABSTRACT

Online tracking of multiple objects in videos requires strong capacity of modeling and matching object appearances. Previous methods for learning appearance embedding mostly rely on instance-level matching without considering the temporal continuity provided by videos. We design a new instance-to-track matching objective to learn appearance embedding that compares a candidate detection to the embedding of the tracks persisted in the tracker. It enables us to learn not only from videos labeled with complete tracks, but also unlabeled or partially labeled videos. We implement this learning objective in a unified form following the spirit of constrastive loss. Experiments on multiple object tracking datasets demonstrate that our method can effectively learning discriminative appearance embeddings in a semi-supervised fashion and outperform state of the art methods on representative benchmarks.

研究动机与目标

为在线多目标跟踪 (MOT) 学习鲁棒的外观嵌入提供动机。
利用视频中的时间连续性，通过实例到轨迹匹配来改进实例表示。
通过利用伪标签的未标注视频实现半监督学习。
将 TCL 集成到基于 CenterNet 的端到端 MOT 框架中。
证明 Semi-TCL 在 MOT 基准上达到最先进的结果。

提出的方法

使用聚合 G 将轨迹片段嵌入进行汇聚，定义一个实例到轨迹的距离。
提出 Tracklet Contrastive Learning (TCL)，在实例和子轨迹之间引入对比损失： L_TCL = sum_i (-1/|S(i)|) sum_{\tilde{T}_j in S(i)} exp(f(I_i) · g̃_j / τ) / sum_{\tilde{T}_l in \tilde{T}} exp(f(I_i) · g̃_l / τ)。
使用简单的平均聚合 G 以从轨迹片段特征计算 g_j。
通过从轨迹中采样子轨道并使用原始跟踪器生成伪标签，使用带标签和伪标签的未标注视频进行训练。
采用联合检测+ID损失 L_joint = L_det + L_id，其中 L_id 使用 TCL 进行训练。

实验结果

研究问题

RQ1相比于实例对实例目标，实例到轨迹对比目标在 MOT 的外观嵌入学习中是否可以带来改进？
RQ2TCL 是否能够利用未标注视频实现对 MOT 的有效半监督学习？
RQ3批量大小和未标注视频数据的使用如何影响 MOT 性能？
RQ4预训练策略（CE 与对比学习）对最终 MOT 性能有何影响？
RQ5Semi-TCL 相对于现有方法，在标准 MOT 基准（IDF1、MOTA、IDS）上的表现如何？

主要发现

Methods	IDF1	MOTA	IDS	MT	ML	Frag
MOT15 FairMOT	64.7	60.6	591	343	79	1731
MOT15 GSDT	64.6	60.7	477	339	76	1705
MOT15 TubeTK	53.1	58.4	854	283	130	1194
MOT15 Semi-TCL	64.9	60.6	551	344	88	1687
MOT16 DeepSort	62.2	61.4	781	249	138	2008
MOT16 TubeTK	59.4	64.0	1117	254	147	1366
MOT16 CTracker	57.2	67.6	1897	250	175	3112
MOT16 GSDT	69.2	66.7	959	293	144	2596
MOT16 FairMOT	72.8	74.9	815	306	127	2399
MOT16 Semi-TCL	73.9	74.8	925	322	130	2569
MOT17 SST	49.5	52.4	8431	504	723	14797
MOT17 TubeTK	58.6	63.0	4137	735	468	5727
MOT17 Ctr.Track	64.7	67.8	3039	816	579	6102
MOT17 CTracker	57.4	66.6	5529	759	570	9114
MOT17 GSDT	66.5	73.2	3891	981	411	8604
MOT17 FairMOT	72.3	73.7	3303	1017	408	8073
MOT17 Semi-TCL	73.3	73.3	2790	972	441	8010
MOT20 FairMOT	67.3	61.8	5243	855	94	7874
MOT20 GSDT	67.5	67.1	3131	660	164	9875
MOT20 Semi-TCL	70.1	65.2	4139	761	131	8508

Semi-TCL 在 MOT15、MOT16、MOT17、MOT20 基准上实现了最先进的 IDF1。
在 MOT16 和 MOT17 上，Semi-TCL 比先前的 SOTA 提升了约 1% 的 IDF1。
在 MOT20 上，Semi-TCL 将 IDF1 从 67.5% 提升到 70.1%。
使用带轨迹密度的未标注视频进行挖掘可进一步提升 IDF1（如 AVA-MEVA 组合）。
TCL 在 IDF1 上优于跨熵和实例到实例对比基线。
较大的批量大小（32、96、144）通常提升 IDF1 和 MOTA，表明更多对比对有助于学习。
Semi-TCL 受益于半监督数据；对比预训练（SCL）带来比 CE 预训练更大的 IDF1 增益。
来自 MEVA/AVA 域且与 MOT 场景相似的未标注数据比不同域带来更大收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。