QUICK REVIEW

[论文解读] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation

Sergi Caelles, Jordi Pont-Tuset|arXiv (Cornell University)|May 2, 2019

Visual Attention and Saliency Detection参考文献 45被引用 100

一句话总结

引入用于 DAVIS 的无监督多目标视频对象分割跟踪，对 DAVIS 2017 的训练/验证集进行重新标注以确保一致性，并在新的测试集上给出基线 RVOS 结果。

ABSTRACT

We present the 2019 DAVIS Challenge on Video Object Segmentation, the third edition of the DAVIS Challenge series, a public competition designed for the task of Video Object Segmentation (VOS). In addition to the original semi-supervised track and the interactive track introduced in the previous edition, a new unsupervised multi-object track will be featured this year. In the newly introduced track, participants are asked to provide non-overlapping object proposals on each image, along with an identifier linking them between frames (i.e. video object proposals), without any test-time human supervision (no scribbles or masks provided on the test video). In order to do so, we have re-annotated the train and val sets of DAVIS 2017 in a concise way that facilitates the unsupervised track, and created new test-dev and test-challenge sets for the competition. Definitions, rules, and evaluation metrics for the unsupervised track are described in detail in this paper.

研究动机与目标

推动引入一个无监督多对象 VOS 跟踪以覆盖全自动场景。
给出无监督多对象 VOS 的精确定义以及对象选择与分组的标准。
提供评估指标和规则，以在跨序列的一致性评估无监督提案。
重新标注 DAVIS 2017 的 train/val，使之与无监督准则保持一致，并发布新的 test-dev/challenge 集。
建立基线（如 RVOS）以衡量无监督多对象 VOS 的难度。

提出的方法

将无监督多对象 VOS 定义为以语义为中心的对象选择，并在跨帧中实现一致的掩码跟踪。
提出使用基于 J&F 的准确性矩阵的二分匹配形式，并用匈牙利算法求解，将预测的视频对象提案分配给地面真实对象。
使用每个序列 N 个不重叠的视频对象提案的集合，并将每个 Ground-truth 对象匹配到一个提案，使 M(O_gt, O_n) 最大化。
采用 J&F 指标进行评估，仿照半监督做法，计算逐对象和逐序列的分数。
在零样本模式下将 RVOS 作为基线（每个序列 20 个提案）以量化无监督性能。
重新标注 DAVIS 2017 的 train/val 以确保与无监督定义的一致性，并为无监督跟踪引入新的 test-dev/test-challenge 集。

实验结果

研究问题

RQ1在无监督多对象 VOS 中应如何选择和分组对象，以反映人类的注意力和语义边界？
RQ2哪种评估框架（指标与匹配）最能衡量无监督多对象 VOS 的性能？
RQ3在重新标注的 DAVIS 2017 无监督数据上，零样本视频对象提案方法（如 RVOS）的表现如何？
RQ4在基于 DAVIS 的基准上，无监督与半监督 VOS 的性能差距有多大？

主要发现

集合	J&F	J 平均	J 召回	J 衰减	F 平均	F 召回	F 衰减
val	41.2	36.8	40.2	0.5	45.7	46.4	1.7
test-dev	22.5	17.7	16.2	1.6	27.3	24.8	1.8

在 DAVIS 框架内定义并评估了一个新的无监督多对象跟踪。
作者重新标注 DAVIS 2017 的 train/val 以符合无监督语义，并为无监督跟踪添加了 test-dev/test-challenge。
RVOS 在零样本模式下提供基线结果，显示无监督多对象 VOS 相对于半监督设置的挑战性增加。
在 DAVIS 2017 Unsupervised 上，RVOS 在 val 上达到 41.2 J&F 和 36.8 J Mean，在 test-dev 上为 22.5 J&F 和 17.7 J Mean；F1 以及相关 recall/decay 也有报告。
评估使用最大二分匹配（匈牙利算法）将预测提案分配给地面真实对象，在 L 个地面真实对象和 N 个提案之间最大化准确性矩阵 M。
多对象无监督 VOS 仍然明显比半监督 VOS 更具挑战性，这一点从基线性能中可见。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。