[论文解读] Guided Optical Flow Learning
本文提出了一种新颖的无监督光流学习框架,该框架利用经典光流方法(如FlowFields)生成的代理真实标签来指导监督型CNN训练,随后通过图像重建损失进行无监督微调。该方法在标准基准测试(Chairs、Sintel、KITTI)上实现了最先进或具有竞争力的性能,具备实时推理能力,其准确率超越了现有无监督方法,并在未使用真实真实标签的情况下接近监督模型的性能。
We study the unsupervised learning of CNNs for optical flow estimation using proxy ground truth data. Supervised CNNs, due to their immense learning capacity, have shown superior performance on a range of computer vision problems including optical flow prediction. They however require the ground truth flow which is usually not accessible except on limited synthetic data. Without the guidance of ground truth optical flow, unsupervised CNNs often perform worse as they are naturally ill-conditioned. We therefore propose a novel framework in which proxy ground truth data generated from classical approaches is used to guide the CNN learning. The models are further refined in an unsupervised fashion using an image reconstruction loss. Our guided learning approach is competitive with or superior to state-of-the-art approaches on three standard benchmark datasets yet is completely unsupervised and can run in real time.
研究动机与目标
- 为解决光流训练中缺乏可访问的真实世界真实标签的问题,该问题限制了监督型CNN的可扩展性和泛化能力。
- 提升无监督CNN在光流估计中的性能,通常由于病态条件和缺乏监督,其性能低于监督方法。
- 探究经典光流估计器生成的代理真实标签是否能有效引导深度学习进行运动估计。
- 评估无监督图像重建损失是否能在代理标签引导的预训练后进一步优化光流预测。
- 开发一种完全无监督、实时的光流估计框架,使其在多样化数据集上具有良好的泛化能力。
提出的方法
- 该方法使用FlowFields——一种最先进经典光流估计器——从图像对中生成代理真实标签光流场,用于监督型CNN的预训练。
- 使用预测光流与代理真实标签之间的端点误差(EPE)损失,对监督型CNN(FlowNetS架构)进行训练。
- 预训练模型随后通过无监督方式微调,使用基于使用预测光流对源图像进行逆向扭曲的图像重建损失。
- 重建损失计算为扭曲后的源图像与目标图像之间的L1或L2差异,以鼓励准确的光流估计。
- 整个流程为无监督:训练过程中仅使用图像对和经典方法生成的代理光流,未使用真实真实标签。
- 该框架在Chairs、Sintel和KITTI基准上进行评估,运行时间和EPE为关键指标。
实验结果
研究问题
- RQ1经典光流方法生成的代理真实标签是否能有效引导深度CNN进行光流估计训练?
- RQ2与在真实合成真实标签上训练相比,代理真实标签预训练是否能提升泛化能力?
- RQ3在代理标签引导的预训练后,无监督图像重建损失是否能进一步提升光流估计精度?
- RQ4所提出的引导式无监督方法在准确率和速度方面与最先进无监督和监督光流网络相比如何?
- RQ5该框架是否能在不访问真实真实标签的情况下实现实时性能并保持高精度?
主要发现
- 在Chairs基准上,该方法实现了平均EPE为3.01,仅比监督型FlowNetS(2.71)高出0.30,表明其性能极强,尽管训练过程中未使用真实真实标签。
- 在Sintel基准上,该方法实现了EPE为7.96,优于所有其他无监督方法,并位列整体最佳水平,包括监督模型。
- 在KITTI上,该方法实现了EPE为9.5,与最先进方法相比具有竞争力,但略逊于基于层的PCA-Flow方法(6.2)。
- 无监督微调使所有数据集上的平均EPE降低0.33:Chairs上从3.34降至3.01,Sintel上从8.05降至7.96,KITTI上从9.7降至9.5。
- 该方法在GPU上每帧运行时间为0.06秒,实现了与其它最先进CNN方法相当的实时性能。
- 从一开始就联合使用EPE和重建损失进行训练的表现不如分阶段预训练与微调,表明代理标签引导的预训练为无监督优化提供了更优的初始化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。