QUICK REVIEW

[论文解读] Lucid Data Dreaming for Video Object Segmentation

Anna Khoreva, Rodrigo Benenson|arXiv (Cornell University)|Mar 28, 2017

Video Surveillance and Tracking Methods参考文献 79被引用 24

一句话总结

本文提出了一种名为 'lucid data dreaming' 的方法，通过从单个标注的首帧生成逼真的未来帧，合成视频目标分割任务的域内训练数据。仅使用 100 个或更少的标注帧——且无需 ImageNet 预训练——该方法在多个数据集上实现了最先进性能，表明领域特定数据比大规模、多样化数据更有效。

ABSTRACT

Convolutional networks reach top quality in pixel-level video object segmentation but require a large amount of training data (1k~100k) to deliver such results. We propose a new training strategy which achieves state-of-the-art results across three evaluation datasets while using 20x~1000x less annotated data than competing methods. Our approach is suitable for both single and multiple object segmentation. Instead of using large training sets hoping to generalize across domains, we generate in-domain training data using the provided annotation on the first frame of each video to synthesize ("lucid dream") plausible future video frames. In-domain per-video training data allows us to train high quality appearance- and motion-based models, as well as tune the post-processing stage. This approach allows to reach competitive results even when training from only a single annotated frame, without ImageNet pre-training. Our results indicate that using a larger training set is not automatically better, and that for the video object segmentation task a smaller training set that is closer to the target domain is more effective. This changes the mindset regarding how many training samples and general "objectness" knowledge are required for the video object segmentation task.

研究动机与目标

减少视频目标分割对大规模、多样化训练数据集的依赖。
通过最小化所需标注帧数量，降低像素级视频分割的标注成本。
探究领域特定数据合成是否能超越从大规模、多领域数据中进行泛化。
即使仅使用一个标注帧且无 ImageNet 预训练，也能实现高性能视频目标分割。
通过优先考虑域内数据而非数据量，重新定义视频分割中的数据效率范式。

提出的方法

利用首帧的掩码和光流生成合理未来视频帧，以生成逼真的训练数据。
在生成的域内数据上训练卷积神经网络，利用外观和运动先验以提升分割性能。
在模型架构中将光流和语义分割先验作为与 RGB 特征互补的信号。
使用基于 CRF 的后处理步骤，通过生成数据自动调优以优化预测结果。
在推理过程中引入时间一致性模块，以增强帧间的一致性。
采用多流网络架构，联合 RGB、光流和语义特征进行端到端训练，以提升鲁棒性。

实验结果

研究问题

RQ1视频目标分割能否在远少于当前方法所需标注帧数的情况下实现最先进性能？
RQ2通过 'lucid dreaming' 生成域内训练数据，是否优于使用来自不同领域的大型多样化数据集？
RQ3仅用一个标注帧训练的模型，在无 ImageNet 预训练的情况下，其性能能达到何种竞争水平？
RQ4当与合成数据结合时，运动和语义先验对性能的贡献程度如何？
RQ5数据领域对齐与数据量相比，对分割准确率的影响如何？

主要发现

所提方法仅使用 100 个或更少的标注帧，就在三个基准数据集上实现了最先进性能，相比先前工作将数据需求降低了 20 倍至 1000 倍。
即使仅使用一个标注帧且无 ImageNet 预训练，模型仍能取得具有竞争力的结果，表明其具备从极小数据中强大泛化能力。
引入光流和语义先验后，模型性能显著提升，模型集成使全局平均 IoU 提升 2.7 个百分点。
推理阶段的时间一致性处理进一步提升性能，将全局平均 IoU 从 65.2 提升至 66.6。
误差分析显示，当物体视觉相似时，多目标分割面临挑战，导致标签互换或渗漏，表明需要实例级识别机制。
结果表明，更大的训练集并不总是更优——与大型通用数据集相比，领域特定的合成数据能带来更优性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。