QUICK REVIEW

[论文解读] FlowNet: Learning Optical Flow with Convolutional Networks

Philipp Fischer, Alexey Dosovitskiy|arXiv (Cornell University)|Apr 26, 2015

Advanced Vision and Imaging参考文献 25被引用 601

一句话总结

本文提出FlowNet，一种使用监督学习进行端到端光流估计的卷积神经网络架构。它提出了两种变体——FlowNetSimple和FlowNetCorr，后者包含一个相关层以显式匹配图像间的特征。该网络在包含30万对图像的合成Flying Chairs数据集上进行训练，能够在Sintel和KITTI等真实世界数据集上实现良好泛化，在5–10 fps的实时推理速度下达到实时方法中的最先进精度。

ABSTRACT

Convolutional neural networks (CNNs) have recently been very successful in a variety of computer vision tasks, especially on those linked to recognition. Optical flow estimation has not been among the tasks where CNNs were successful. In this paper we construct appropriate CNNs which are capable of solving the optical flow estimation problem as a supervised learning task. We propose and compare two architectures: a generic architecture and another one including a layer that correlates feature vectors at different image locations. Since existing ground truth data sets are not sufficiently large to train a CNN, we generate a synthetic Flying Chairs dataset. We show that networks trained on this unrealistic data still generalize very well to existing datasets such as Sintel and KITTI, achieving competitive accuracy at frame rates of 5 to 10 fps.

研究动机与目标

实现使用深度卷积神经网络进行端到端光流估计的学习。
将光流估计问题作为需要精确像素级对应匹配的监督学习任务来解决。
探究是否能够使用内容不真实的合成数据（例如飞行扶手椅）泛化到真实世界光流基准测试。
比较标准CNN架构与集成专用相关层用于特征匹配的架构在性能上的差异。
评估训练网络在多样化真实世界数据集上的实时推理能力与泛化性能。

提出的方法

提出两种CNN架构：FlowNetSimple（标准编码器-解码器）和FlowNetCorr（包含用于显式特征匹配的相关层）。
使用收缩性编码器路径提取分层特征，使用扩展性解码器路径优化光流预测。
引入一个相关层，用于计算两幅输入图像中不同空间位置的特征图之间的相似性。
在合成数据上使用监督损失（终点误差）端到端训练网络。
生成Flying Chairs数据集，通过随机背景和分割的3D扶手椅模型创建大规模合成训练数据。
应用数据增强（随机裁剪、颜色抖动、翻转）以缓解合成数据分布偏移带来的影响，提升泛化能力。

实验结果

研究问题

RQ1在合成数据上进行训练时，标准CNN架构能否学习到具有竞争力精度的光流预测？
RQ2与标准CNN相比，引入专用相关层是否能提升光流预测性能？
RQ3在高度不真实的合成数据（如Flying Chairs）上训练的网络，能在多大程度上泛化到真实世界光流基准测试（如Sintel和KITTI）？
RQ4在精度和推理速度方面，FlowNet与最先进非学习方法及基于学习的光流方法相比表现如何？
RQ5对预测光流场进行变分优化是否能提升性能，还是网络本身已学习到最优的光流表示？

主要发现

FlowNetCorr在Sintel和KITTI基准测试中实现了实时光流方法中的最先进精度，Sintel Final上的终点误差（EPE）为3.15 px。
在Flying Chairs数据集上训练的网络能良好泛化到真实世界场景，在Flying Chairs测试集上优于DeepFlow和EpicFlow等方法。
即使未经微调，FlowNet在Sintel和KITTI上也表现出具有竞争力的性能，EPE分别为3.15 px和5.25 px，展现出强大的零样本泛化能力。
FlowNetCorr中的相关层在大位移和细节区域的预测中表现更优，与EpicFlow的定性对比结果表明了这一点。
FlowNetS在Sintel上的泛化能力优于FlowNetC，而FlowNetC在Flying Chairs和Sintel Clean上表现更佳，表明其对训练数据存在轻微过拟合。
变分优化在Flying Chairs上导致性能下降，表明网络内部表示已捕获高质量的光流场。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。