QUICK REVIEW

[论文解读] Interactive Video Object Segmentation in the Wild

Arnaud Benard, Michael Gygli|arXiv (Cornell University)|Dec 31, 2017

Visual Attention and Saliency Detection参考文献 14被引用 34

一句话总结

本文提出了一种实用的交互式视频目标分割系统，利用深度学习模型通过极少的用户点击快速优化目标掩码。通过迭代地利用点击反馈改进初始分割结果，该方法在GrabCut数据集上实现了最先进性能（平均仅需3.8次点击即达到90%的IoU），即使在具有挑战性的视频序列中也能实现快速、精确的视频分割。

ABSTRACT

In this paper we present our system for human-in-the-loop video object segmentation. The backbone of our system is a method for one-shot video object segmentation. While fast, this method requires an accurate pixel-level segmentation of one (or several) frames as input. As manually annotating such a segmentation is impractical, we propose a deep interactive image segmentation method, that can accurately segment objects with only a handful of clicks. On the GrabCut dataset, our method obtains 90% IOU with just 3.8 clicks on average, setting the new state of the art. Furthermore, as our method iteratively refines an initial segmentation, it can effectively correct frames where the video object segmentation fails, thus allowing users to quickly obtain high quality results even on challenging sequences. Finally, we investigate usage patterns and give insights in how many steps users take to annotate frames, what kind of corrections they provide, etc., thus giving important insights for further improving interactive video segmentation.

研究动机与目标

通过减少对耗时的像素级人工标注的依赖，使交互式视频目标分割在真实场景中更具实用性。
解决完全自动视频分割方法在存在运动模糊、遮挡或画面构图不佳等复杂场景下失效的问题。
开发一种高效、交互式的图像分割方法，利用用户点击迭代优化初始掩码，从而为视频分割提供快速且准确的初始化。
分析真实世界中的用户交互模式，以指导未来交互式分割工具的设计并提升可用性。
评估在下游视频分割流程中使用近似掩码（来自交互式分割）而非完美真实标注掩码的影响。

提出的方法

提出一种深度卷积神经网络，其输入包括RGB图像、用户点击（编码为高斯图）以及当前分割掩码作为额外的二值通道。
使用以点击位置为中心的高斯核对用户点击进行编码，实现平滑且局部化的影响力，相比欧氏距离图在定位精度上表现更优。
通过模拟用户交互进行模型训练，前景点击从真实目标边界附近的一条边缘区域采样，背景点击则从初始预测的误差区域采样。
将交互式分割模型集成到两阶段视频分割流程中：首先，使用少量点击对首帧进行交互式分割；其次，利用OSVOS将掩码传播至其他帧。
将方法扩展至通过允许用户使用1–2次点击对OSVOS预测结果进行逐帧修正，从而利用模型对已有掩码进行优化的能力。
在模拟点击与笔画的组合数据上进行训练，以提升模型对真实使用中多样化用户输入模式的鲁棒性。

实验结果

研究问题

RQ1基于深度学习的交互式分割方法是否能显著减少达到高精度目标分割所需的点击次数，同时保持高性能？
RQ2使用近似、基于点击的掩码而非完美像素级标注，对下游视频目标分割模型（如OSVOS）的性能有何影响？
RQ3在真实世界交互式分割中，主导的用户交互模式是什么？这些模式如何影响系统设计与可用性？
RQ4对具有运动模糊或遮挡的挑战性视频序列，对初始分割掩码进行迭代优化能在多大程度上提升分割精度？
RQ5是否能够预测用户交互模式与分割难度，以引导用户选择更适合的视频序列或改善系统反馈？

主要发现

所提出的交互式分割方法在GrabCut数据集上平均仅需3.8次点击即实现90%的IoU，创下新SOTA纪录。
仅需一次点击，该方法即可使掩码IoU提升13.4%，显著优于iFCN和GrabCut等基线方法，后者提升微弱甚至出现负向改善。
将交互式方法生成的掩码作为OSVOS的输入，其IoU仅比使用完美真实标注掩码下降-3.2%，表现极为接近。
用户平均对首帧进行4轮优化，对后续帧也进行4轮优化，表明初始分割精度至关重要。
仅有15%的用户进行额外帧的优化，说明初始分割质量对用户满意度具有决定性影响。
OSVOS性能与连续帧掩码间平均IoU之间存在强相关性，表明高运动或显著外观变化会降低分割质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。