Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Learning of Dense Optical Flow and Depth from Sparse Event Data.

Chengxi Ye, Anton Mitrokhin|arXiv (Cornell University)|Sep 23, 2018
CCD and CMOS Imaging Sensors被引用 29
一句话总结

本文提出了一种轻量级、自监督的神经网络(ECN),仅使用150k个参数,即可从稀疏事件数据中估计密集深度、光流和自身运动。在MVSEC数据集上进行训练后,该模型在单个GPU上实现了250 FPS的实时推理,并在白天和夜间条件下均表现出色,优于先前方法在基于事件的深度和光流估计方面的性能。

ABSTRACT

In this work we present a lightweight, unsupervised learning pipeline for extit{dense} depth, optical flow and egomotion estimation from sparse event output of the Dynamic Vision Sensor (DVS). To tackle this low level vision task, we use a novel encoder-decoder neural network architecture - ECN. Our work is the first monocular pipeline that generates dense depth and optical flow from sparse event data only. The network works in self-supervised mode and has just 150k parameters. We evaluate our pipeline on the MVSEC self driving dataset and present results for depth, optical flow and and egomotion estimation. Due to the lightweight design, the inference part of the network runs at 250 FPS on a single GPU, making the pipeline ready for realtime robotics applications. Our experiments demonstrate significant improvements upon previous works that used deep learning on event data, as well as the ability of our pipeline to perform well during both day and night.

研究动机与目标

  • 解决从稀疏事件数据中估计密集深度和光流的挑战,该问题在先前工作中研究较少。
  • 开发一种单目、无监督学习流程,避免依赖标注数据或多传感器设置。
  • 设计一种计算效率高的架构,适用于实时机器人应用。
  • 在不同光照条件下(包括白天和夜间场景)实现鲁棒性能。
  • 仅使用事件数据即实现基于事件的深度和光流估计的最先进结果。

提出的方法

  • 提出一种名为ECN(基于事件的卷积网络)的新编码器-解码器神经网络架构,用于联合估计深度、光流和自身运动。
  • 采用自监督方式训练网络,使用光度一致性损失最小化预测帧与真实帧之间的重建误差。
  • 以动态视觉传感器(DVS)的稀疏事件数据作为输入,无需密集监督或RGB帧。
  • 采用多任务学习设置,在单一轻量级网络中联合优化深度、光流和自身运动预测。
  • 实现可微分的图像扭曲层,通过图像重建损失监督光流和深度预测。
  • 使用反向传播优化网络,参数量极小(150k个参数),以确保具备实时推理能力。

实验结果

研究问题

  • RQ1一个单一的、轻量级神经网络能否在无监督条件下,从稀疏事件数据中联合估计密集深度、光流和自身运动?
  • RQ2与先前基于事件数据的深度学习方法相比,所提出的ECN架构在准确性和效率方面表现如何?
  • RQ3该模型在仅使用事件数据的情况下,对不同光照条件(如白天和夜间)的泛化能力如何?
  • RQ4该网络的推理速度是多少?是否能够支持机器人应用中的实时处理?
  • RQ5使用光度一致性进行自监督训练是否能在无真实标注数据的情况下,生成可靠的深度和光流预测?

主要发现

  • 所提出的ECN网络在单个GPU上实现了250 FPS的实时推理速度,适用于实时机器人应用。
  • 该模型在基于事件数据的深度和光流估计方面,相较于先前的深度学习方法表现出显著的性能提升。
  • 该流程即使在低光照条件下(包括夜间场景)也能生成高质量的密集深度和光流预测。
  • 自监督训练策略有效从稀疏事件数据中学习到有意义的表征,而无需依赖标注数据。
  • 仅含150k个参数的轻量级架构实现了高效的部署,同时在MVSEC基准测试中保持了具有竞争力的准确度。
  • 该网络在不同光照条件下具有良好的泛化能力,对光照变化表现出鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。