[论文解读] FusionSeg: Learning to combine motion and appearance for fully automatic segmention of generic objects in videos
FusionSeg 提出一个双流 CNN,联合学习外观和运动线索,以在视频中对通用对象执行像素级前景分割,使用弱视频数据和图像注释进行训练;在 DAVIS、YouTube-Objects 和 SegTrack-v2 上取得了最先进的结果。
We propose an end-to-end learning framework for segmenting generic objects in videos. Our method learns to combine appearance and motion information to produce pixel level segmentation masks for all prominent objects in videos. We formulate this task as a structured prediction problem and design a two-stream fully convolutional neural network which fuses together motion and appearance in a unified framework. Since large-scale video datasets with pixel level segmentations are problematic, we show how to bootstrap weakly annotated videos together with existing image recognition datasets for training. Through experiments on three challenging video segmentation benchmarks, our method substantially improves the state-of-the-art for segmenting generic (unseen) objects. Code and pre-trained models are available on the project website.
研究动机与目标
- 不依赖于类别特定模型,推动并实现对视频中通用对象的完全自动分割。
- 利用外观与运动的互补线索来改进像素级分割。
- 开发一种训练策略,从图像注释和弱视频数据中自举,因为缺乏大规模像素级视频数据集。
- 在多个具有挑战性的视频分割基准上展示最先进的性能。
提出的方法
- 两流全卷积网络,处理 RGB 帧(外观流)和颜色编码的光流(运动流)。
- 外观流建立在带有多尺度并行膨胀分支的扩张-ResNet-101 上,以产生逐像素的对象性映射。
- 运动流使用相同的架构,但在光流输入上训练,并使用来自边界框和基于流的过滤的伪地面真实值进行自举。
- 融合模型通过三个分支将流合并:先外观再运动、先运动再外观,以及成对乘积,随后通过最大化操作得到最终分割。
- 训练数据通过从图像分割数据集(如 PASCAL VOC 2012)和弱 bounding-box 视频注释(ImageNet-Video)自举收集,并通过筛选步骤为运动网络训练生成高质量伪地面真实值。
实验结果
研究问题
- RQ1外观和运动线索能否在端到端可训练框架中融合,以自动对视频中的通用前景对象进行分割?
- RQ2当缺乏大规模像素级视频注释时,如何训练深度模型进行视频分割?
- RQ3联合建模外观与运动是否在多种视频基准上优于仅使用任一线索?
- RQ4哪些训练策略可以利用图像分割数据和弱视频注释来学习对移动和静止对象都鲁棒的像素级分割?
主要发现
- 联合的外观+运动模型在单独流上有显著提升(在 DAVIS 上最高可达 11 个百分点)。
- 在 DAVIS 上,联合模型 (Ours-Joint) 达到 71.51% 的平均 IoU,超过若干自动基线和部分半监督基线。
- 在 YouTube-Objects 上,联合模型达到 68.43% 的平均 IoU,超过许多最先进的自动方法,并且与半监督方法仍具竞争力。
- 在 SegTrack-v2 上,联合模型达到 61.40% 的平均 IoU,超越若干基线,显示跨数据集融合运动和外观的好处。
- 该方法优于完全自动方法,甚至优于需要人工输入的一些半监督方法,同时在测试阶段完全自动运行。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。