[论文解读] LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation
LiteFlowNet 是一个紧凑的 CNN,在具有挑战性的基准上超过 FlowNet2,同时参数量约为 FlowNet2 的 1/30,运行时约快 1.36 倍,通过级联光流推断、特征扭曲和一种新颖的光流正则化层实现。
FlowNet2, the state-of-the-art convolutional neural network (CNN) for optical flow estimation, requires over 160M parameters to achieve accurate flow estimation. In this paper we present an alternative network that outperforms FlowNet2 on the challenging Sintel final pass and KITTI benchmarks, while being 30 times smaller in the model size and 1.36 times faster in the running speed. This is made possible by drilling down to architectural details that might have been missed in the current frameworks: (1) We present a more effective flow inference approach at each pyramid level through a lightweight cascaded network. It not only improves flow estimation accuracy through early correction, but also permits seamless incorporation of descriptor matching in our network. (2) We present a novel flow regularization layer to ameliorate the issue of outliers and vague flow boundaries by using a feature-driven local convolution. (3) Our network owns an effective structure for pyramidal feature extraction and embraces feature warping rather than image warping as practiced in FlowNet2. Our code and trained models are available at https://github.com/twhui/LiteFlowNet .
研究动机与目标
- 为光流估计提供一个轻量且准确的 CNN 作为动机。
- 开发分金字塔特征提取和特征扭曲,以减少搜索空间并提高效率。
- 引入带描述子匹配的分级光流推断以实现渐进式细化。
- 加入基于特征驱动的局部卷积正则化以减少离群点并提升边界锐度。
- 展示端到端训练并在标准基准上实现有竞争力的性能。
提出的方法
- 两个子网络:NetC 用于金字塔特征提取,NetE 用于金字塔光流估计。
- 特征扭曲(f-warp)应用于 CNN 特征而非图像,以减少特征空间距离。
- 在每个金字塔层级进行级联光流推断,配备描述子匹配单元 M 与亚像素细化单元 S。
- 基于代价体的描述子匹配,采用短距离搜索和稀疏采样以降低计算量。
- 通过基于特征驱动的局部卷积(f-lconv)实现光流正则化,滤波器根据特征、光流和遮挡线索进行自适应。
- 训练在金字塔各层级逐步进行,逐步加入 M、S 和 R 单元;采用端到端训练,损失函数为 L2,优化器为 Adam。
实验结果
研究问题
- RQ1一个紧凑的 CNN 架构是否能够在显著减少参数量的情况下达到与最先进或接近最先进的光流精度?
- RQ2在 CNN 特征空间中的特征扭曲是否比图像扭曲能提高匹配效率和精度?
- RQ3带描述子匹配和亚像素细化的级联光流推断策略是否能改善大位移光流估计?
- RQ4是否可以学习的、基于特征驱动的正则化层在保持高效的同时减少伪影并提高光流边界的锐度?
主要发现
- LiteFlowNet 在 Sintel 最终通道和 KITTI 基准测试上对 FlowNet2 具有竞争力或优越性,同时参数量约为原来的 30 倍更少,运行速度约快 1.36 倍。
- 6 级金字塔结构,分离的 NetC(特征)和 NetE(光流)实现了有效的从粗到细的估计。
- CNN 特征的特征扭曲(f-warp)减少需估计的残差光流,提升了准确性和效率。
- 具描述子匹配(M)和亚像素细化(S)的级联光流推断逐步改善光流,尤其有助于大位移情况。
- 一种新颖的基于特征的局部卷积(f-lconv)提供面向图像与光流的正则化,稳定边界并减少伪影。
- LiteFlowNet 及其变体在参数效率显著优于 SPyNet 和若干 FlowNet2 变体;LiteFlowNet-ft(微调)在在对任务特定数据训练时,在 Sintel 和 KITTI 上表现突出。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。