[论文解读] Recurrent Neural Network for (Un-)supervised Learning of Monocular VideoVisual Odometry and Depth
本文提出一个基于RNN的框架,通过单目视频联合估计深度和视觉里程计,支持有监督或无监督训练,使用多视图重投影和前向-后向流一致性损失,在KITTI数据集达到最先进结果。
Deep learning-based, single-view depth estimation methods have recently shown highly promising results. However, such methods ignore one of the most important features for determining depth in the human vision system, which is motion. We propose a learning-based, multi-view dense depth map and odometry estimation method that uses Recurrent Neural Networks (RNN) and trains utilizing multi-view image reprojection and forward-backward flow-consistency losses. Our model can be trained in a supervised or even unsupervised mode. It is designed for depth and visual odometry estimation from video where the input frames are temporally correlated. However, it also generalizes to single-view depth estimation. Our method produces superior results to the state-of-the-art approaches for single-view and multi-view learning-based depth estimation on the KITTI driving dataset.
研究动机与目标
- 利用单目视频中的时序信息来改进深度和位姿估计。
- 使用 ConvLSTM 单元实现同时的深度和视觉里程计估计。
- 通过多视点重投影和前向-后向光流约束,开发稳健的自监督训练。
- 在任意长度的序列中保持一致的场景尺度。
- 在 KITTI 上展示相对于现有方法的优越性能。
提出的方法
- 两个网络:一个结合 ConvLSTM 的深度网络(编码器-解码器),输出深度 Z_t 和隐藏状态 h_t^d。
- 基于 VGG16 主干并带有 ConvLSTM 单元的视觉里程计网络,输出相对 6DoF 位姿 P_t→t-1。
- 训练使用可微几何模块,从 Z_t 和 P_t→t-1 进行多视图图像扭曲(重投影)。
- 多视图重投影损失 L_fw/L_bw 通过可微分的扭曲使当前视图与先前视图对齐。
- 前向-后向光流一致性损失强制前向和后向光流的一致性。
- 可选的绝对深度损失 L_depth(以及替代的平滑性变体),在可获得地真值时实现绝对尺度。
实验结果
研究问题
- RQ1ConvLSTM 基于架构是否能利用时序信息来改善多帧的单目深度估计和自位姿?
- RQ2在无监督深度和位姿估计中,结合多视图重投影和前向-后向流一致性是否比仅对偶对比重投影更优?
- RQ3所提出的框架是否能够实现一致的场景尺度并在任意长度序列上运行?
- RQ4在 KITTI 上的有监督与无监督训练下,方法的表现如何?
- RQ5循环单元放置位置和时序窗口大小对深度/位姿精度有何影响?
主要发现
- 该方法在 KITTI 上在有监督和无监督深度估计方面均达到比现有方法更优的结果。
- 带有多视图重投影和流一致性的无监督训练优于若干有监督基线和其他无监督方法。
- 深度网络中仅在编码器放置 ConvLSTM 的效果优于全连接或仅在解码器放置的深度/位姿性能。
- 多视图重投影损失比连续重投影提供更强的监督,尤其在无监督设置中。
- 深度估计随较大的时序窗口增大而提升,直到大约 10 帧后趋于稳定,且模型支持任意长度序列。
- 框架在多尺度输出深度并在长序列中保持一致的场景尺度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。