QUICK REVIEW

[论文解读] FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation

Paul Voigtlaender, Yuning Chai|arXiv (Cornell University)|Feb 25, 2019

Visual Attention and Saliency Detection参考文献 36被引用 27

一句话总结

FEELVOS 提出了一种快速、端到端的视频实例分割方法，无需首帧微调即可学习像素级嵌入。它使用首帧的全局匹配和前一帧的局部匹配作为动态分割头的内部引导，实现了 71.5% 的 J&F 分数（DAVIS 2017 验证集），并达到实时推理速度。

ABSTRACT

Many of the recent successful methods for video object segmentation (VOS) are overly complicated, heavily rely on fine-tuning on the first frame, and/or are slow, and are hence of limited practical use. In this work, we propose FEELVOS as a simple and fast method which does not rely on fine-tuning. In order to segment a video, for each frame FEELVOS uses a semantic pixel-wise embedding together with a global and a local matching mechanism to transfer information from the first frame and from the previous frame of the video to the current frame. In contrast to previous work, our embedding is only used as an internal guidance of a convolutional network. Our novel dynamic segmentation head allows us to train the network, including the embedding, end-to-end for the multiple object segmentation task with a cross entropy loss. We achieve a new state of the art in video object segmentation without fine-tuning with a J&F measure of 71.5% on the DAVIS 2017 validation set. We make our code and models available at https://github.com/tensorflow/models/tree/master/research/feelvos.

研究动机与目标

解决现有视频实例分割（VOS）方法的实际局限性，如推理速度慢、需要首帧微调或模型过于复杂。
开发一种简单、快速、可端到端训练且性能强劲的 VOS 方法。
通过消除微调需求并降低推理复杂度，实现真正的实时部署。
设计一种方法，无需针对特定任务进行调整，即可在多对象和多样化视频序列中实现良好泛化能力。

提出的方法

提出一种单阶段、可端到端训练的网络，通过交叉熵损失联合学习语义像素级嵌入和分割掩码。
利用当前帧嵌入与首帧嵌入之间的全局匹配，传递长程上下文信息。
在空间窗口内对当前帧与前一帧嵌入实施局部匹配，以保持时间一致性。
将全局和局部距离图与主干特征及前一帧预测结果融合，输入到动态分割头中。
采用动态卷积头，根据输入特征自适应调整卷积核，实现多源线索的有效融合。
在整个系统上进行端到端训练，无需微调，仅使用标准的分割掩码监督信号。

实验结果

研究问题

RQ1视频实例分割模型是否能在不依赖首帧微调的情况下实现最先进性能？
RQ2基于嵌入的匹配（全局匹配首帧，局部匹配前一帧）作为分割过程的内部引导，相较于用于最终预测，其有效性如何？
RQ3首帧全局匹配、前一帧局部匹配以及前一帧预测在提升分割精度方面的相对贡献分别是什么？
RQ4是否能够通过简单的一体化网络架构，在保持实时推理速度的同时超越复杂的多网络流水线？

主要发现

FEELVOS 在 DAVIS 2017 验证集上实现了 71.5% 的 J&F 分数，创下新 SOTA，且无需任何首帧微调。
消融实验表明，若禁用前一帧局部匹配，性能下降近 5%，凸显其在时间一致性中的关键作用。
若同时移除前一帧匹配和预测，性能降至 52.6%，证明时间传播机制的重要性。
与全局匹配相比，前一帧的局部匹配显著更有效：当用全局匹配替代局部匹配时，性能下降 4.9%。
首帧全局匹配对性能贡献显著：即使仅用于初始化前一帧匹配，禁用它仍导致 J&F 分数下降 13%。
全局首帧匹配、局部前一帧匹配与前一帧预测的组合取得最佳效果，证实三者具有互补性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。