Skip to main content
QUICK REVIEW

[论文解读] Learning Video Object Segmentation with Visual Memory

Pavel Tokmakov, Karteek Alahari|arXiv (Cornell University)|Apr 19, 2017
Video Surveillance and Tracking Methods参考文献 34被引用 46
一句话总结

该论文提出了一种双流神经网络,采用卷积门控循环单元(ConvGRU)记忆模块,以在无需人工标注帧的情况下学习视觉记忆,用于视频目标分割。通过双向时空建模融合外观和运动特征,该方法在DAVIS基准上实现了最先进性能,较之前的方法提升了近6%。

ABSTRACT

This paper addresses the task of segmenting moving objects in unconstrained videos. We introduce a novel two-stream neural network with an explicit memory module to achieve this. The two streams of the network encode spatial and temporal features in a video sequence respectively, while the memory module captures the evolution of objects over time. The module to build a "visual memory" in video, i.e., a joint representation of all the video frames, is realized with a convolutional recurrent unit learned from a small number of training video sequences. Given a video frame as input, our approach assigns each pixel an object or background label based on the learned spatio-temporal features as well as the "visual memory" specific to the video, acquired automatically without any manually-annotated frames. The visual memory is implemented with convolutional gated recurrent units, which allows to propagate spatial information over time. We evaluate our method extensively on two benchmarks, DAVIS and Freiburg-Berkeley motion segmentation datasets, and show state-of-the-art results. For example, our approach outperforms the top method on the DAVIS dataset by nearly 6%. We also provide an extensive ablative analysis to investigate the influence of each component in the proposed framework.

研究动机与目标

  • 解决在无约束视频中不依赖人工标注帧的视频目标分割挑战。
  • 克服先前深度学习方法依赖光流或帧特定监督的局限性。
  • 开发一种记忆机制,以捕捉长期的物体演化过程,并处理动态运动变化,如物体停止和重启。
  • 通过联合时空建模提高在存在遮挡和外观变化的复杂场景中的分割鲁棒性。
  • 在标准基准上实现最先进性能,同时实现仅需最小监督的端到端训练。

提出的方法

  • 采用双流架构:第一路使用在单帧上预训练的DeepLab网络提取外观特征。
  • 第二路使用在帧对之间光流上预训练的运动预测网络计算运动线索。
  • 将两条路整合到双向卷积门控循环单元(ConvGRU)中,以构建物体随时间演化的视觉记忆。
  • ConvGRU通过重置门和更新门控制来自前一帧的信息流,从而保持联合时空表征。
  • 以正向和反向两个方向处理视频序列,以增强上下文建模并提高分割精度。
  • 仅使用视频帧和测试时的真实分割标签进行端到端训练,无需人工帧标注。

实验结果

研究问题

  • RQ1在无手动帧标注的情况下,可学习的视觉记忆机制是否能提升视频目标分割性能?
  • RQ2双向ConvGRU在建模长程时间依赖性和物体运动变化方面有多有效?
  • RQ3外观特征和运动特征在提升分割鲁棒性方面互补程度如何?
  • RQ4所提方法在DAVIS和FBMS等标准基准上与最先进方法相比表现如何?
  • RQ5各组件(外观流、运动流、记忆模块)对最终分割性能的贡献分别是什么?

主要发现

  • 该方法在DAVIS 2017基准上相较最先进方法提升6%,创下新的最先进结果。
  • 在FBMS数据集上,该方法在比较方法中达到最高精度和F-measure,尽管在长静态序列中召回率略低。
  • 在SegTrack-v2上,该方法实现57.3的平均IoU,优于CUT和FST,并且在DAVIS上较NLC高出20.8%,尽管NLC是专门针对SegTrack调优的。
  • 消融研究证实,外观流和运动流均对性能有显著贡献,且双向记忆机制提升了分割精度。
  • ConvGRU门的可视化显示,不同记忆通道分别专注于处理运动、外观或边界信息,表明具备自适应特征选择能力。
  • 由于持久的视觉记忆能够跨时间间隙保持物体身份,该方法能有效处理物体运动变化,如停止和重启。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。