[论文解读] SegFlow: Joint Learning for Video Object Segmentation and Optical Flow
本文提出 SegFlow,一种端到端、联合训练的卷积神经网络,通过在分割与光流分支之间实现双向特征传播,同时预测视频目标分割与光流。该方法通过相互监督提升两个任务的性能,在 DAVIS 和 Scene Flow 基准测试中分别取得 2.50 和 4.06 的平均端点误差(AEE),达到当前最优性能,同时保持每帧 0.3 秒的实时推理速度。
This paper proposes an end-to-end trainable network, SegFlow, for simultaneously predicting pixel-wise object segmentation and optical flow in videos. The proposed SegFlow has two branches where useful information of object segmentation and optical flow is propagated bidirectionally in a unified framework. The segmentation branch is based on a fully convolutional network, which has been proved effective in image segmentation task, and the optical flow branch takes advantage of the FlowNet model. The unified framework is trained iteratively offline to learn a generic notion, and fine-tuned online for specific objects. Extensive experiments on both the video object segmentation and optical flow datasets demonstrate that introducing optical flow improves the performance of segmentation and vice versa, against the state-of-the-art algorithms.
研究动机与目标
- 为解决同时预测高精度视频目标分割与光流的挑战,这两项任务本质上相互依赖,但通常被独立优化。
- 开发一种统一的深度学习框架,实现分割与光流分支之间的双向特征交互,以同时提升两个任务的性能。
- 在无需大规模包含配对真实分割与光流标注的数据集的情况下,训练联合模型。
- 实现在实际视频分析应用中,对分割与光流预测均实现实时推理。
- 验证分割与光流具有互补性,联合学习可使性能超越单一任务的独立优化。
提出的方法
- SegFlow 采用双分支卷积神经网络架构:一个分支基于全卷积的 ResNet-101 用于分割,另一个分支采用 FlowNetS 架构用于光流估计。
- 通过在多个尺度上连接上采样与下采样特征的跳跃连接,实现双向特征传播,以对齐空间维度。
- 采用迭代的离线-在线训练策略:模型首先在单一任务上使用其真实标签进行预训练,然后通过交替优化分割与光流损失,进行联合微调。
- 训练过程中,梯度在两个分支间反向传播,使模型学习共享表征,从而同时提升分割与光流预测性能。
- 采用多阶段优化过程,交替更新分割分支(借助光流引导)与光流分支(借助分割引导),即使在缺乏两个任务配对真实标签的情况下,也能确保收敛。
- 最终模型在标准基准上进行评估:DAVIS 用于分割,Sintel、Flying Chairs 和 Scene Flow 用于光流,定量指标包括平均端点误差(AEE)和 JIoU。
实验结果
研究问题
- RQ1与独立训练相比,联合学习视频目标分割与光流是否能提升两个任务的性能?
- RQ2分割与光流分支之间的双向特征通信如何提升预测精度?
- RQ3是否可行训练一个联合模型,而无需大规模包含配对真实分割与光流标注的数据集?
- RQ4所提出的迭代训练策略是否能收敛至在两个任务上均表现强劲的解?
- RQ5引入分割引导是否能生成更完整、更平滑的光流,特别是在运动物体内部?
主要发现
- 在 Scene Flow 数据集上,SegFlow 取得 2.50 的平均端点误差(AEE),优于 FlowNetS+ft*(3.78 AEE),并在 Monkaa 和 Driving 数据集上达到或超越 SceneFlowNet 的性能。
- 在 DAVIS 2017 验证集上,SegFlow 的 JIoU 达到 71.0%,显著优于无光流引导的基线方法(Ours-flo)以及当前最优的无监督与半监督方法。
- 在 Titan X GPU 上,模型推理速度为每帧 0.3 秒,适用于实时应用;若包含在线微调,则为每帧 7.9 秒。
- 迭代训练策略即使在训练过程中仅能获取单个真实标签(分割或光流)时,也能实现收敛并带来性能提升。
- 可视化结果表明,得益于分割引导的光流正则化,SegFlow 在运动物体内部生成了更平滑、更完整的光流。
- 在 KITTI 数据集上,SegFlow 在未使用数据增强的情况下,性能仍优于使用大量数据增强的 FlowNetS+ft,表明其具备强大的泛化能力与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。