[论文解读] ReMOTS: Self-Supervised Refining Multi-Object Tracking and Segmentation
ReMOTS 提出了一种自监督框架,通过在帧内和短时轨迹对之间进行训练,迭代改进外观特征学习,从而优化多目标跟踪与分割(MOTS)结果。该方法在 CVPR 2020 MOTS 挑战赛中取得了 69.9 的 sMOTSA 得分,达到当前最先进水平,利用统计分析自动设定合并阈值,无需真实标注监督。
We aim to improve the performance of Multiple Object Tracking and Segmentation (MOTS) by refinement. However, it remains challenging for refining MOTS results, which could be attributed to that appearance features are not adapted to target videos and it is also difficult to find proper thresholds to discriminate them. To tackle this issue, we propose a self-supervised refining MOTS (i.e., ReMOTS) framework. ReMOTS mainly takes four steps to refine MOTS results from the data association perspective. (1) Training the appearance encoder using predicted masks. (2) Associating observations across adjacent frames to form short-term tracklets. (3) Training the appearance encoder using short-term tracklets as reliable pseudo labels. (4) Merging short-term tracklets to long-term tracklets utilizing adopted appearance features and thresholds that are automatically obtained from statistical information. Using ReMOTS, we reached the $1^{st}$ place on CVPR 2020 MOTS Challenge 1, with an sMOTSA score of $69.9$.
研究动机与目标
- 通过自监督的外观特征优化,提升多目标跟踪与分割(MOTS)的性能。
- 解决在无真实标注的情况下,将外观特征适应到目标视频的挑战。
- 通过对外观特征分布的统计分析,自动确定短时轨迹合并的最优阈值。
- 通过利用帧内与轨迹对之间的一致性,提升 MOTS 中的数据关联性能。
提出的方法
- ReMOTS 使用同一帧中预测的掩码训练外观编码器,构建正负三元组对以进行对比学习。
- 通过光流和外观相似性,在相邻帧之间关联掩码,构建短时轨迹对,其距离矩阵结合了 IoU 和余弦相似度。
- 利用这些短时轨迹对作为伪标签,重新训练外观编码器,以提升特征的可分性。
- 通过基于距离矩阵的层次聚类,将短时轨迹对合并为长时轨迹,该距离矩阵施加了时空约束。
- 合并的截断阈值通过公式 1−θ_app_long 自动设定,该值来源于轨迹对之间余弦相似度直方图的峰值。
- 该框架采用一种新颖的 IoM(交集除以最小值)度量用于非极大值抑制,以解决掩码重叠问题。
实验结果
研究问题
- RQ1无真实标注的情况下,能否通过自监督训练外观特征来提升 MOTS 性能?
- RQ2在 MOTS 中,如何构建可靠的伪标签以重新训练外观编码器?
- RQ3在 MOTS 中,是否存在一种有效且数据驱动的方法来设定短时轨迹对的合并阈值?
- RQ4能否通过对外观特征分布的统计分析,替代 MOTS 优化中的启发式阈值选择?
主要发现
- ReMOTS 在 CVPR 2020 MOTS 挑战赛中以 69.9 的 sMOTSA 得分获得第一名,IDF1 指标优于其他方法。
- 该方法在多种序列上均表现优异,各测试序列得分范围为 68.5 至 87.2。
- 在 NMS 中使用 IoM 有效减少了掩码重叠问题,提升了优化前的掩码质量。
- 基于帧内与轨迹对之间数据的自监督训练,显著提升了外观特征的可分性。
- 通过余弦相似度直方图分析实现的自动阈值选择,无需真实标注即证明有效。
- 该框架表明,对外观特征分布的统计分析可实现鲁棒且自适应的短时轨迹对合并。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。