QUICK REVIEW

[论文解读] YouTube-VOS: A Large-Scale Video Object Segmentation Benchmark

Ning Xu, Linjie Yang|arXiv (Cornell University)|Sep 6, 2018

Visual Attention and Saliency Detection参考文献 26被引用 302

一句话总结

引入一个大规模的 YouTube-VOS 数据集用于视频对象分割，并在其验证集上基准多种最先进方法以建立基线并分析泛化。

ABSTRACT

Learning long-term spatial-temporal features are critical for many video analysis tasks. However, existing video segmentation methods predominantly rely on static image segmentation techniques, and methods capturing temporal dependency for segmentation have to depend on pretrained optical flow models, leading to suboptimal solutions for the problem. End-to-end sequential learning to explore spatialtemporal features for video segmentation is largely limited by the scale of available video segmentation datasets, i.e., even the largest video segmentation dataset only contains 90 short video clips. To solve this problem, we build a new large-scale video object segmentation dataset called YouTube Video Object Segmentation dataset (YouTube-VOS). Our dataset contains 4,453 YouTube video clips and 94 object categories. This is by far the largest video object segmentation dataset to our knowledge and has been released at http://youtube-vos.org. We further evaluate several existing state-of-the-art video object segmentation algorithms on this dataset which aims to establish baselines for the development of new algorithms in the future.

研究动机与目标

推动端到端学习长时空特征用于视频对象分割，因为现有小规模数据集的局限性。
从 YouTube 视频创建一个大规模、多样化的数据集，以实现对序列模型的鲁棒训练和评估。
提供一个基准，用于评估对未见类别的泛化，以及为未来工作建立基线性能。

提出的方法

从 YouTube 视频在 94 个类别中组装一个新的大规模视频对象分割数据集，提供每五帧的密集注释（6 fps 采样）。
采用跳帧注释策略以扩展注释规模，同时保持跨帧的时间连贯性。
在一致设置下评估多种最先进的视频对象分割方法在 YouTube-VOS 训练/验证集的表现。
分析 Seen 与 Unseen 类别的性能以评估泛化。
提供基线结果和关于在线学习和长时延时建模对分割有效性的洞见。

实验结果

研究问题

RQ1大型 YouTube 来源的数据集在训练视频对象分割模型方面相比较小基准有何影响？
RQ2Seen 与 Unseen 类别之间的性能差距有多大，在线学习如何影响泛化？
RQ3在 YouTube-VOS 上，长时空模型与基于静态图像的方法相比如何？
RQ4在 YouTube-VOS 验证集上，方法之间的推理速度和准确性权衡如何？

主要发现

方法	J_seen	J_unseen	F_seen	F_unseen	Overall	速度（s/帧）
OSVOS [7]	59.8%	54.2%	60.5%	60.7%	58.8%	10
MaskTrack [8]	59.9%	45.0%	59.5%	47.9%	53.1%	12
OSMN [9]	60.0%	40.6%	60.1%	44.0%	51.2%	0.14
OnAVOS [35]	60.1%	46.6%	62.7%	51.4%	55.2%	13
S2S (w/o OL) [34]	66.7%	48.2%	65.5%	50.3%	57.6%	0.16
S2S (with OL) [34]	71.0%	55.5%	70.0%	61.2%	64.4%	9

YouTube-VOS 是迄今为止最大的 VOS 数据集，拥有 4,453 个视频和 197,272 个注释，覆盖 94 个对象类别。
具有时间连贯性的序列到序列模型（S2S）在有在线学习（OL）时优于静态图像方法。
OnAVOS 相较于 DAVIS 基准的预期表现下降，原因在于 YouTube-VOS 中出现了显著的外观变化和复杂运动。
在未见类别中，所有方法均退化，但 OSVOS 显示相对较小的衰减，表明大规模图像预训练的收益。
针对推理速度优化的方法（OSMN、S2S w/o OL）具备实时潜力，但精度低于带 OL 的变体。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。