QUICK REVIEW

[论文解读] Efficient Video Object Segmentation via Network Modulation

Linjie Yang, Yanran Wang|arXiv (Cornell University)|Feb 4, 2018

Visual Attention and Saliency Detection参考文献 27被引用 40

一句话总结

提出一种网络调制框架，使用可视调制器和空间调制器在一个前向传播中将分割网络适应到目标对象，达到接近一次性微调的准确度并实现约70倍加速。

ABSTRACT

Video object segmentation targets at segmenting a specific object throughout a video sequence, given only an annotated first frame. Recent deep learning based approaches find it effective by fine-tuning a general-purpose segmentation model on the annotated frame using hundreds of iterations of gradient descent. Despite the high accuracy these methods achieve, the fine-tuning process is inefficient and fail to meet the requirements of real world applications. We propose a novel approach that uses a single forward pass to adapt the segmentation model to the appearance of a specific object. Specifically, a second meta neural network named modulator is learned to manipulate the intermediate layers of the segmentation network given limited visual and spatial information of the target object. The experiments show that our approach is 70times faster than fine-tuning approaches while achieving similar accuracy.

研究动机与目标

动机并解决在一-shot 设置中半监督视频对象分割的在线微调低效问题。
开发一个元学习者（调制器），利用有限的首帧线索立即将基础分割网络自适应到特定对象。
结合视觉外观信息和空间先验，引导网络调制以实现跨帧的鲁棒跟踪。
证明基于调制的自适应在准确性上具有竞争力，同时相比微调方法在速度方面有显著提升。

提出的方法

引入两种调制器：一个视觉调制器，输出用于调制层的通道尺度参数；一个空间调制器，使用空间先验热图输出逐像素偏置。
在大多数卷积层之后使用调制层，其中 y_c = gamma_c * x_c + beta_c，Gamma 由视觉调制器给出，Beta 由空间调制器给出。
视觉调制器通过修改后的 VGG16 处理带注释的目标对象图像（视觉引导），以生成调制参数。
空间调制器以先验位置（前一帧掩码）编码为高斯热图，下采样以匹配特征图分辨率，并生成偏置。
端到端训练系统，采用两输入设置（视觉+空间线索）在 MS-COCO 上训练，如有需要可在视频数据上微调；使用平衡交叉熵损失。
保持一个全卷积主分割网络（基于 VGG16 并具有超柱特征），在除前四层之外的所有卷积层后设置调制层。

实验结果

研究问题

RQ1一个二级元网络是否能够在不进行迭代微调的情况下，立即将分割模型适配到特定对象？
RQ2将视觉外观引导与空间先验结合，是否能提高对多对象相似性和对象运动的鲁棒性？
RQ3与传统在线微调相比，网络调制在半监督视频分割中的性能-速度权衡如何？
RQ4调制参数与对象外观及跨帧跟踪性的相关性有多强？

主要发现

方法	DAVIS 16 (mean IU)	YoutubeObjs (mean IU)	带 FT	OptFlow	CRF	速度（s）
Ours (Stage 1)	72.2	66.4	✗	✗	✗	0.14
Ours (Stage 1&2)	74.0	69.0	✗	✗	✗	0.14
Ours	52.5	60.9	✗	✗	✗	-

所提出的网络调制方法相比在线微调实现约70倍加速，同时达到相似的准确性。
在 DAVIS 2016 和 YoutubeObjects 上，该方法优于不进行微调的基线，并且与微调方法具有竞争力。
DAVIS 2017 的结果在不进行微调的情况下相对于 MaskTrack-B 和 OSVOS-B 获得显著提升，使用调制在微调基线上的情形也有提升。
可视化显示调制参数为对象类别形成有意义的嵌入，越深的层参数变化越大。
空间先验偏置在早期层较为稀疏，随着深层的增加变得更明显，表明空间线索逐步整合到特征中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。