[论文解读] Unsupervised Learning of Dense Optical Flow, Depth and Egomotion from Sparse Event Data
本文提出ECN,一种仅含150k参数的轻量级无监督神经网络,通过单目动态视觉传感器(DVS)从稀疏事件数据中联合估计密集光流、深度和自身运动。该方法在250 FPS下实现实时推理,并在低光照和夜间条件下展现出强大的泛化能力,在MVSEC数据集上的深度、光流和自身运动估计任务中优于先前方法。
In this work we present a lightweight, unsupervised learning pipeline for extit{dense} depth, optical flow and egomotion estimation from sparse event output of the Dynamic Vision Sensor (DVS). To tackle this low level vision task, we use a novel encoder-decoder neural network architecture - ECN. Our work is the first monocular pipeline that generates dense depth and optical flow from sparse event data only. The network works in self-supervised mode and has just 150k parameters. We evaluate our pipeline on the MVSEC self driving dataset and present results for depth, optical flow and and egomotion estimation. Due to the lightweight design, the inference part of the network runs at 250 FPS on a single GPU, making the pipeline ready for realtime robotics applications. Our experiments demonstrate significant improvements upon previous works that used deep learning on event data, as well as the ability of our pipeline to perform well during both day and night.
研究动机与目标
- 开发一种轻量级、无监督的神经网络,用于从稀疏事件数据中估计密集深度、光流和自身运动。
- 解决DVS数据中稀疏性、噪声和低空间分辨率的挑战,且不依赖多相机系统。
- 实现实时推理,适用于机器人和自动驾驶应用。
- 提升在传统传感器失效的低光照和夜间条件下的泛化能力。
- 提出一种新型事件表示和归一化技术,以改善事件数据上的特征学习。
提出的方法
- 提出一种名为逐级级联网络(Evenly-Cascaded Network, ECN)的新编码器-解码器架构,参数量为150k,用于端到端无监督学习。
- 采用三通道事件表示:时间图像,以及每像素的正负事件计数,并通过平均时间戳来降低噪声。
- 将多个时间事件切片作为输入,以保留三维结构并提升自身运动估计性能。
- 提出一种新型归一化技术——特征去相关(feature decorrelation),以提升训练稳定性和推理质量。
- 利用自监督学习与几何一致性损失进行深度、光流和自身运动估计,无需真实标签。
- 应用平滑性和边缘感知正则化,以应对稀疏数据并保留物体边界。
实验结果
研究问题
- RQ1单目无监督深度学习流水线能否从稀疏事件数据中恢复密集深度和光流?
- RQ2此类流水线能否在低光照和夜间驾驶场景中有效泛化?
- RQ3仅含150k参数的轻量级网络能否实现适合机器人应用的实时性能?
- RQ4所提出的特征去相关归一化技术相比标准批量归一化,如何提升训练和推理性能?
- RQ5与单帧表示相比,多切片事件输入能否提升三维结构和自身运动估计性能?
主要发现
- 在‘outdoor day 1’序列中,ECN模型的ARPE为3.98°,ARRE为0.00267,显著优于SfMlearner(16.99°和0.00916)和Zhu18(7.74°和0.00867)。
- 在‘outdoor night 1’序列中,ECN的ARPE为1.00°,ARRE为0.00139,表明其在仅在白天序列上训练的情况下,仍对低光照条件具有强大的泛化能力。
- 该模型在单张GPU上运行速度达250 FPS,适用于实时机器人应用。
- 消融实验表明,特征去相关可缩短训练时间并提升推理质量。
- 即使在事件稀疏的条件下,网络仍能成功重建密集深度和光流,夜间低事件率场景中清晰的物体轮廓证实了这一点。
- 该流水线在‘outdoor day 1’序列上达到AEE_tr^depth为1.29 m/s,在‘outdoor night 1’序列上为1.26 m/s,表明其对尺度模糊具有鲁棒性,并在基于深度的归一化下表现良好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。