Skip to main content
QUICK REVIEW

[论文解读] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Zachary Teed, Jia Deng|arXiv (Cornell University)|Mar 26, 2020
Advanced Vision and Imaging参考文献 53被引用 135
一句话总结

RAFT 引入一个单分辨率的迭代更新网络,使用所有像素对的特征相关以及一个循环更新单元,在 KITTI 和 Sintel 上实现最先进的光流性能,具有强泛化能力和效率。

ABSTRACT

We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts per-pixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves state-of-the-art performance. On KITTI, RAFT achieves an F1-all error of 5.10%, a 16% error reduction from the best published result (6.10%). On Sintel (final pass), RAFT obtains an end-point-error of 2.855 pixels, a 30% error reduction from the best published result (4.098 pixels). In addition, RAFT has strong cross-dataset generalization as well as high efficiency in inference time, training speed, and parameter count. Code is available at https://github.com/princeton-vl/RAFT.

研究动机与目标

  • 提出一种高精度光流模型,克服粗到细架构的局限性。
  • 开发一个单分辨率的循环更新机制,通过学习到的更新来细化光流。
  • 利用可学习的逐像素特征和完整的全像素对相关体实现鲁棒匹配。
  • 在推理和训练中展示出强烈的跨数据集泛化能力和高效性。

提出的方法

  • 使用共享编码器和上下文网络从两帧提取逐像素特征。
  • 通过像素特征的内积构建覆盖所有像素对的完整4D相关体;再池化形成多尺度相关金字塔。
  • 使用基于卷积GRU的更新算子,读取相关金字塔和先前的光流,迭代更新高分辨率光场。
  • 使用学习得到的对邻近像素的凸组合将1/8分辨率光流放大到全分辨率。
  • 用一个带有指数增长权重的中间光流序列估计的监督损失进行训练。

实验结果

研究问题

  • RQ1是否能够通过许多权重绑定的循环更新,利用全对相关,有效地细化单个高分辨率光流场?
  • RQ2在多尺度相关体上学习基于GRU的更新算子,是否比多阶段粗到细流程提高了准确性?
  • RQ3单分辨率的 RAFT 模型在跨数据集(Sintel、KITTI)的泛化能力以及对高分辨率视频的扩展性如何?
  • RQ4设计选择(上下文、相关池化、查找半径、上采样)对精度和效率有多大影响?

主要发现

  • 在 KITTI 上达到最先进的 F1-all=5.10%,相比先前最佳(6.10%)提高了16%。
  • 在 Sintel 最终通道,端点误差(EPE)为 2.855 像素,比先前最佳(4.098 像素)降低了30%。
  • 显示出强跨数据集泛化能力;在合成数据上训练后,KITTI 的 EPE 为 5.04,在 Chairs/Things 预训练后(比先前的深度网络高出40%)。
  • 保持高效率:在 1080Ti 上以 10 FPS 处理 1088x436 的视频,并且可以以更小的 1/5 参数变体在 20 FPS 下运行,同时仍然在 Sintel 上超越先前方法。
  • 维持并更新一个单一的高分辨率光场进行多次迭代(100+ 次可能),使用权重绑定更新,避免了其他迭代改进中观察到的发散。
  • 消融研究显示多尺度相关池化、相关查找和学习上采样的好处;基于扭曲的改进在 KITTI 上的表现不如基于相关匹配。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。