QUICK REVIEW

[论文解读] Learning to Segment Instances in Videos with Spatial Propagation Network

Jingchun Cheng, Sifei Liu|arXiv (Cornell University)|Sep 14, 2017

Visual Attention and Saliency Detection参考文献 28被引用 19

一句话总结

该论文提出了一种基于空间传播网络（SPN）和连通区域感知滤波器（CRAF）的视频实例分割框架，用于优化空间边界和时序一致性。首先使用ResNet-101主干网络进行前景/背景分割，随后在首个帧的实例掩码上进行微调，利用SPN通过学习到的像素级亲和力传播分割分数，并应用CRAF以增强时空一致性，在DAVIS 2017数据集上实现了最先进性能，全局平均IoU达到0.576。

ABSTRACT

We propose a deep learning-based framework for instance-level object segmentation. Our method mainly consists of three steps. First, We train a generic model based on ResNet-101 for foreground/background segmentations. Second, based on this generic model, we fine-tune it to learn instance-level models and segment individual objects by using augmented object annotations in first frames of test videos. To distinguish different instances in the same video, we compute a pixel-level score map for each object from these instance-level models. Each score map indicates the objectness likelihood and is only computed within the foreground mask obtained in the first step. To further refine this per frame score map, we learn a spatial propagation network. This network aims to learn how to propagate a coarse segmentation mask spatially based on the pairwise similarities in each frame. In addition, we apply a filter on the refined score map that aims to recognize the best connected region using spatial and temporal consistencies in the video. Finally, we decide the instance-level object segmentation in each video by comparing score maps of different instances.

研究动机与目标

解决在非刚性运动、遮挡和视角变化下实现准确的实例级视频目标分割的挑战。
通过引入可学习的空间传播机制替代传统的CRF后处理，提升基于深度学习的视频分割中边界对齐效果。
通过检测并消除跨帧中的不一致标签区域，增强实例跟踪的时序一致性。
开发一种可扩展、高效的流水线，结合微调的实例特定模型与轻量级后处理模块，适用于实时应用。

提出的方法

在训练集上使用ResNet-101训练一个通用的前景/背景分割模型，随后在每个测试视频的首帧实例掩码上进行微调。
通过将微调后的模型应用于前景掩码内，逐个对象地生成实例级分数图。
引入空间传播网络（SPN），通过线性2D传播模块利用学习到的像素级亲和力，对粗分割掩码进行分数传播以实现精细化。
应用连通区域感知滤波器（CRAF），通过利用帧间的时空一致性来消除不一致的分割区域。
将跨帧的实例分数图进行融合，并将每个像素分配给分数最高的实例，若所有分数均低于0.5则归为背景。
采用两阶段推理流水线：首先生成各实例的分数图，然后通过SPN和CRAF进行精细化处理，以提升准确性和一致性。

实验结果

研究问题

RQ1可学习的空间传播机制是否能在视频实例分割的边界精细化中超越传统的基于CRF的后处理方法？
RQ2连通区域感知滤波器（CRAF）在消除由遮挡或跟踪漂移引起的时序不一致分割方面效果如何？
RQ3在首帧实例掩码上微调通用分割模型，与通用模型相比，其在实例级精度上的提升程度如何？
RQ4在存在遮挡和非刚性运动的复杂视频序列中，SPN与CRAF对整体性能提升的相对贡献分别是什么？
RQ5所提方法是否能在低推理开销下实现具有竞争力的性能，适合实时部署？

主要发现

所提方法在DAVIS 2017验证集上实现了0.576的全局平均交并比（IoU），相比每视频模型高出2.1%。
仅使用空间传播网络（SPN）相比无后处理基线，全局平均IoU提升了5.6%。
连通区域感知滤波器（CRAF）贡献了3.9%的全局平均IoU提升，证明其在消除不一致标签方面的有效性。
在DAVIS 2017挑战测试集上，CRAF将J-Mean从51.6%提升至53.6%，F-Mean从57.9%提升至60.2%。
在DAVIS 2017挑战赛中，该方法排名第六，取得0.569的全局平均IoU和0.602的F-Mean。
运行时分析显示，全流水线在Titan X GPU上每帧每对象的处理时间为0.78秒，其中SPN和CRAF分别仅增加0.08秒和0.10秒的开销。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。