Skip to main content
QUICK REVIEW

[论文解读] Video Object Segmentation with Re-identification

Xiaoxiao Li, Yuankai Qi|arXiv (Cornell University)|Aug 1, 2017
Advanced Neural Network Applications参考文献 7被引用 67
一句话总结

本文提出 VS-ReID,是一个由两个模块组成的系统,将掩模传播与再识别相结合,以在视频中稳健地分割目标,在 DAVIS 2017 测试集上达到顶级性能。它通过迭代传播掩模并重新识别缺失的实例来减少漂移并处理大位移。

ABSTRACT

Conventional video segmentation methods often rely on temporal continuity to propagate masks. Such an assumption suffers from issues like drifting and inability to handle large displacement. To overcome these issues, we formulate an effective mechanism to prevent the target from being lost via adaptive object re-identification. Specifically, our Video Object Segmentation with Re-identification (VS-ReID) model includes a mask propagation module and a ReID module. The former module produces an initial probability map by flow warping while the latter module retrieves missing instances by adaptive matching. With these two modules iteratively applied, our VS-ReID records a global mean (Region Jaccard and Boundary F measure) of 0.699, the best performance in 2017 DAVIS Challenge.

研究动机与目标

  • 解决视频目标分割中的漂移和大对象位移跟踪失败问题。
  • 引入自适应再识别机制以恢复遗漏的实例。
  • 将基于补丁的掩模传播网络与再识别模块结合,对视频序列进行迭代细化。
  • 在 DAVIS 2017 挑战中展示最先进的结果,并分析各组件的消融情况。

提出的方法

  • 掩模传播模块使用一个两流网络(RGB 与 光流)通过光流引导的变形与补丁级细化,在相邻帧之间传播像素级掩模。
  • 对象再识别(ReID)模块通过将检测到的候选实例与对象的存储模板进行匹配,使用 ReID 特征的余弦相似度来检索遗漏的实例。
  • 迭代性细化在传播与再识别之间交替,以在整段序列中恢复并传播掩模。
  • 基于补丁输入的掩模传播网络有助于更好地处理小对象与细节,借助更高分辨率的特征图与膨胀卷积的作用。
  • 检测(Faster R-CNN)与 ReID 网络在类似 ImageNet 的数据集上进行训练,并调整以适应再识别任务。
  • 一个检查点机制可避免在对帧进行迭代性重新访问时对概率图造成损害。

实验结果

研究问题

  • RQ1将基于光流的掩模传播与长期再识别结合,是否能提升对遮挡和大对象运动的鲁棒性?
  • RQ2再识别在超出短期时间传播之外恢复遗漏实例方面有多大贡献?
  • RQ3基于补丁的掩模传播与多尺度测试对分割精度的影响如何?
  • RQ4在恢复多实例时,迭代的 VS-ReID 精细化是否能在整个序列中稳定带来改进?

主要发现

表 1 标题表 2 标题
基线 [11]0.5090.5260.517-
+ 全图到 边界框0.5320.5770.555+0.038
+ 光流分支0.5680.6000.584+0.007
+ ReID 模块0.6330.6700.652+0.068
+ 多尺度测试0.6440.6780.661+0.009
全局结果(DAVIS 2017 test-challenge)69.9---
  • 在 DAVIS 2017 test-challenge 上取得全局均值(Region Jaccard 与 Boundary F)0.699,为 2017 年报道的最佳表现。
  • 消融结果显示从全图输入到边框、流分支、ReID 模块和多尺度测试获得显著提升。
  • 带有迭代细化的再识别提供了显著提升(例如,加入 ReID 模块后全局均值提升 +0.068)。
  • 双流(RGB + 光流)传播配合基于补丁的输入可提升边界准确度与边界召回。
  • 所提出的检查点机制在跨帧迭代细化过程中缓解了损害。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。