[论文解读] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation
引入用于 DAVIS 的无监督多目标视频对象分割跟踪,对 DAVIS 2017 的训练/验证集进行重新标注以确保一致性,并在新的测试集上给出基线 RVOS 结果。
We present the 2019 DAVIS Challenge on Video Object Segmentation, the third edition of the DAVIS Challenge series, a public competition designed for the task of Video Object Segmentation (VOS). In addition to the original semi-supervised track and the interactive track introduced in the previous edition, a new unsupervised multi-object track will be featured this year. In the newly introduced track, participants are asked to provide non-overlapping object proposals on each image, along with an identifier linking them between frames (i.e. video object proposals), without any test-time human supervision (no scribbles or masks provided on the test video). In order to do so, we have re-annotated the train and val sets of DAVIS 2017 in a concise way that facilitates the unsupervised track, and created new test-dev and test-challenge sets for the competition. Definitions, rules, and evaluation metrics for the unsupervised track are described in detail in this paper.
研究动机与目标
- 推动引入一个无监督多对象 VOS 跟踪以覆盖全自动场景。
- 给出无监督多对象 VOS 的精确定义以及对象选择与分组的标准。
- 提供评估指标和规则,以在跨序列的一致性评估无监督提案。
- 重新标注 DAVIS 2017 的 train/val,使之与无监督准则保持一致,并发布新的 test-dev/challenge 集。
- 建立基线(如 RVOS)以衡量无监督多对象 VOS 的难度。
提出的方法
- 将无监督多对象 VOS 定义为以语义为中心的对象选择,并在跨帧中实现一致的掩码跟踪。
- 提出使用基于 J&F 的准确性矩阵的二分匹配形式,并用匈牙利算法求解,将预测的视频对象提案分配给地面真实对象。
- 使用每个序列 N 个不重叠的视频对象提案的集合,并将每个 Ground-truth 对象匹配到一个提案,使 M(O_gt, O_n) 最大化。
- 采用 J&F 指标进行评估,仿照半监督做法,计算逐对象和逐序列的分数。
- 在零样本模式下将 RVOS 作为基线(每个序列 20 个提案)以量化无监督性能。
- 重新标注 DAVIS 2017 的 train/val 以确保与无监督定义的一致性,并为无监督跟踪引入新的 test-dev/test-challenge 集。
实验结果
研究问题
- RQ1在无监督多对象 VOS 中应如何选择和分组对象,以反映人类的注意力和语义边界?
- RQ2哪种评估框架(指标与匹配)最能衡量无监督多对象 VOS 的性能?
- RQ3在重新标注的 DAVIS 2017 无监督数据上,零样本视频对象提案方法(如 RVOS)的表现如何?
- RQ4在基于 DAVIS 的基准上,无监督与半监督 VOS 的性能差距有多大?
主要发现
| 集合 | J&F | J 平均 | J 召回 | J 衰减 | F 平均 | F 召回 | F 衰减 |
|---|---|---|---|---|---|---|---|
| val | 41.2 | 36.8 | 40.2 | 0.5 | 45.7 | 46.4 | 1.7 |
| test-dev | 22.5 | 17.7 | 16.2 | 1.6 | 27.3 | 24.8 | 1.8 |
- 在 DAVIS 框架内定义并评估了一个新的无监督多对象跟踪。
- 作者重新标注 DAVIS 2017 的 train/val 以符合无监督语义,并为无监督跟踪添加了 test-dev/test-challenge。
- RVOS 在零样本模式下提供基线结果,显示无监督多对象 VOS 相对于半监督设置的挑战性增加。
- 在 DAVIS 2017 Unsupervised 上,RVOS 在 val 上达到 41.2 J&F 和 36.8 J Mean,在 test-dev 上为 22.5 J&F 和 17.7 J Mean;F1 以及相关 recall/decay 也有报告。
- 评估使用最大二分匹配(匈牙利算法)将预测提案分配给地面真实对象,在 L 个地面真实对象和 N 个提案之间最大化准确性矩阵 M。
- 多对象无监督 VOS 仍然明显比半监督 VOS 更具挑战性,这一点从基线性能中可见。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。