[论文解读] Back to Basics: Unsupervised Learning of Optical Flow via Brightness Constancy and Motion Smoothness
本文提出了一种仅使用图像对的端到端无监督学习方法,用于光流估计,利用亮度恒定性和运动平滑性作为损失函数。尽管缺乏真实光流,该方法在KITTI数据集上的表现优于监督训练,在非遮挡区域取得更优结果,整体性能也具有竞争力。
Recently, convolutional networks (convnets) have proven useful for predicting optical flow. Much of this success is predicated on the availability of large datasets that require expensive and involved data acquisition and laborious la- beling. To bypass these challenges, we propose an unsuper- vised approach (i.e., without leveraging groundtruth flow) to train a convnet end-to-end for predicting optical flow be- tween two images. We use a loss function that combines a data term that measures photometric constancy over time with a spatial term that models the expected variation of flow across the image. Together these losses form a proxy measure for losses based on the groundtruth flow. Empiri- cally, we show that a strong convnet baseline trained with the proposed unsupervised approach outperforms the same network trained with supervision on the KITTI dataset.
研究动机与目标
- 开发一种无需真实光流标注的卷积网络无监督训练方法,以预测光流。
- 解决自动驾驶等真实场景中大规模密集标注光流数据集稀缺的问题。
- 证明基于图像一致性和光流平滑性的代理损失可有效训练高精度光流网络。
- 通过避免依赖合成或弱监督数据,实现在真实世界领域(如车载视频)大量未标注视频数据上的训练。
- 验证当真实光流有限或不可用时,无监督训练可超越监督基线。
提出的方法
- 该方法使用光度损失,通过比较第一幅图像与使用预测光流反向映射的第二幅图像之间的差异,强制实现亮度恒定性。
- 空间平滑性损失惩罚相邻光流向量之间的大差异,促进分段平滑的光流场。
- 总损失为光度损失和平滑性项的加权和,超参数根据数据集(Flying Chairs 和 KITTI)进行调优。
- 使用 Adam 优化器配合学习率衰减和数据增强(包括几何变换(翻转、缩放)和光度变换(色彩抖动))进行端到端训练。
- 为提高在暗区或过曝区域的鲁棒性,在计算光度损失前,对经过几何增强的图像使用局部 9×9 响应归一化进行归一化。
- 该方法采用 FlowNet Simple 架构,且在主训练阶段完全依赖图像对进行训练,不使用任何真实光流。
实验结果
研究问题
- RQ1能否在无需任何真实光流监督的情况下训练卷积网络以预测光流?
- RQ2结合光度一致性和光流平滑性损失是否能构成真实光流监督的有效代理?
- RQ3当真实光流稀缺时,能否在真实世界视频数据上进行无监督训练,使其性能超越监督训练?
- RQ4在真实世界数据集(如 KITTI)上,无监督训练的性能与监督基线相比如何?
- RQ5该无监督方法能否在真实世界场景(如自动驾驶)中实现泛化,且在标注数据有限的情况下表现良好?
主要发现
- 在 KITTI 2012 数据集上,无监督方法在非遮挡像素上的平均端点误差(EPE)为 4.3,优于监督基线 FlowNet(EPE 为 5.0)。
- 在包含遮挡区域的完整测试集上,无监督方法的 EPE 为 4.6,与监督基线(EPE 为 5.0)相比仍具竞争力。
- 无监督方法在 KITTI 训练集上的表现优于监督 FlowNet,表明代理损失在真实光流数据有限时依然有效。
- 在 Flying Chairs 数据集上,由于真实光流丰富,监督方法性能仍更优,证实当监督信号可用时其仍为最优选择。
- 该方法在 NVIDIA GTX 1080 GPU 上推理速度达每帧 0.03 秒,可实现实际部署。
- 在光度损失计算前使用几何增强与局部响应归一化,显著提升了在低光照和高饱和区域的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。