[论文解读] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT 引入一个单分辨率的迭代更新网络,使用所有像素对的特征相关以及一个循环更新单元,在 KITTI 和 Sintel 上实现最先进的光流性能,具有强泛化能力和效率。
We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts per-pixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves state-of-the-art performance. On KITTI, RAFT achieves an F1-all error of 5.10%, a 16% error reduction from the best published result (6.10%). On Sintel (final pass), RAFT obtains an end-point-error of 2.855 pixels, a 30% error reduction from the best published result (4.098 pixels). In addition, RAFT has strong cross-dataset generalization as well as high efficiency in inference time, training speed, and parameter count. Code is available at https://github.com/princeton-vl/RAFT.
研究动机与目标
- 提出一种高精度光流模型,克服粗到细架构的局限性。
- 开发一个单分辨率的循环更新机制,通过学习到的更新来细化光流。
- 利用可学习的逐像素特征和完整的全像素对相关体实现鲁棒匹配。
- 在推理和训练中展示出强烈的跨数据集泛化能力和高效性。
提出的方法
- 使用共享编码器和上下文网络从两帧提取逐像素特征。
- 通过像素特征的内积构建覆盖所有像素对的完整4D相关体;再池化形成多尺度相关金字塔。
- 使用基于卷积GRU的更新算子,读取相关金字塔和先前的光流,迭代更新高分辨率光场。
- 使用学习得到的对邻近像素的凸组合将1/8分辨率光流放大到全分辨率。
- 用一个带有指数增长权重的中间光流序列估计的监督损失进行训练。
实验结果
研究问题
- RQ1是否能够通过许多权重绑定的循环更新,利用全对相关,有效地细化单个高分辨率光流场?
- RQ2在多尺度相关体上学习基于GRU的更新算子,是否比多阶段粗到细流程提高了准确性?
- RQ3单分辨率的 RAFT 模型在跨数据集(Sintel、KITTI)的泛化能力以及对高分辨率视频的扩展性如何?
- RQ4设计选择(上下文、相关池化、查找半径、上采样)对精度和效率有多大影响?
主要发现
- 在 KITTI 上达到最先进的 F1-all=5.10%,相比先前最佳(6.10%)提高了16%。
- 在 Sintel 最终通道,端点误差(EPE)为 2.855 像素,比先前最佳(4.098 像素)降低了30%。
- 显示出强跨数据集泛化能力;在合成数据上训练后,KITTI 的 EPE 为 5.04,在 Chairs/Things 预训练后(比先前的深度网络高出40%)。
- 保持高效率:在 1080Ti 上以 10 FPS 处理 1088x436 的视频,并且可以以更小的 1/5 参数变体在 20 FPS 下运行,同时仍然在 Sintel 上超越先前方法。
- 维持并更新一个单一的高分辨率光场进行多次迭代(100+ 次可能),使用权重绑定更新,避免了其他迭代改进中观察到的发散。
- 消融研究显示多尺度相关池化、相关查找和学习上采样的好处;基于扭曲的改进在 KITTI 上的表现不如基于相关匹配。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。