[论文解读] D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry
D3VO 将深度、位姿和不确定性预测整合到单目直接视觉里程计管线,在 KITTI 和 EuRoC 上实现了最先进的结果,且无需外部深度监督。
We propose D3VO as a novel framework for monocular visual odometry that exploits deep networks on three levels -- deep depth, pose and uncertainty estimation. We first propose a novel self-supervised monocular depth estimation network trained on stereo videos without any external supervision. In particular, it aligns the training image pairs into similar lighting condition with predictive brightness transformation parameters. Besides, we model the photometric uncertainties of pixels on the input images, which improves the depth estimation accuracy and provides a learned weighting function for the photometric residuals in direct (feature-less) visual odometry. Evaluation results show that the proposed network outperforms state-of-the-art self-supervised depth estimation networks. D3VO tightly incorporates the predicted depth, pose and uncertainty into a direct visual odometry method to boost both the front-end tracking as well as the back-end non-linear optimization. We evaluate D3VO in terms of monocular visual odometry on both the KITTI odometry benchmark and the EuRoC MAV dataset.The results show that D3VO outperforms state-of-the-art traditional monocular VO methods by a large margin. It also achieves comparable results to state-of-the-art stereo/LiDAR odometry on KITTI and to the state-of-the-art visual-inertial odometry on EuRoC MAV, while using only a single camera.
研究动机与目标
- 通过利用深度、位姿和不确定性等预测,激发并实现鲁棒的单目视觉里程计(VO)。
- 开发在立体视频上训练的自监督深度/姿态网络,使用亮度对齐和光度不确定性。
- 将深度、姿态和不确定性整合到直接 VO 框架中,以提升前端跟踪和后端优化。
- 在 KITTI Odometry 和 EuRoC MAV 上评估 D3VO,以显示其与立体/激光雷达和 VIO 方法的竞争性能。
提出的方法
- 提出自监督的 DepthNet 与 PoseNet,预测深度 D、相对位姿 T,以及光度不确定性 Sigma。
- 引入仿射亮度变换参数以对齐训练帧之间的光照。
- 将逐像素的光度不确定性建模为本质不确定性(aleatoric uncertainty),以在训练和 VO 优化中对残差进行加权。
- 将虚拟立体项和姿态能量项纳入稀疏光度束调整框架。
- 将网络预测用作度量尺度初始化、位姿先验,以及能量函数中的加权,以引导跟踪和优化。
实验结果
研究问题
- RQ1一个自监督的单目网络能否在立体监督下以度量尺度预测深度,并将其整合到直接法管线中以提升 VO?
- RQ2将预测的深度、姿态和光度不确定性纳入是否能改善单目 VO 的前端跟踪和后端优化?
- RQ3深度/不确定性/ pPose 的整合与 KITTI 和 EuRoC 上的最先进单目、立体和 VIO 方法相比如何?
主要发现
| 01 | 02 | 06 | 08 | 09 | 10 | 均值 | |
|---|---|---|---|---|---|---|---|
| M DSO | 9.17 | 114 | 42.2 | 177 | 28.1 | 24.0 | 65.8 |
| D3VO | 1.07 | 0.80 | 0.67 | 1.00 | 0.78 | 0.62 | 0.82 |
| S LSD | 2.13 | 1.09 | 1.28 | 1.24 | 1.22 | 0.75 | 1.29 |
| ORB2 | 1.38 | 0.81 | 0.82 | 1.07 | 0.82 | 0.58 | 0.91 |
| S DSO | 1.43 | 0.78 | 0.67 | 0.98 | 0.98 | 0.49 | 0.89 |
| Dd | 1.16 | 0.84 | 0.71 | 1.01 | 0.82 | 0.73 | 0.88 |
| Dd+Dp | 1.15 | 0.84 | 0.70 | 1.03 | 0.80 | 0.72 | 0.87 |
| Dd+Du | 1.10 | 0.81 | 0.69 | 1.03 | 0.78 | 0.62 | 0.84 |
| D3VO (best mono) | 1.07 | 0.80 | 0.67 | 1.00 | 0.78 | 0.62 | 0.82 |
- 在 KITTI Eigen 深度评估中,结合亮度对齐和光度不确定性的自监督网络,优于 Monodepth2。
- D3VO 在 KITTI Odometry 测试序列上实现了最先进的单目 VO 结果,优于许多单目基线,接近立体/激光雷达性能。
- 在 EuRoC MAV 上,D3VO 提供具有竞争力的单目 VO 结果和鲁棒性,接近端到端和混合方法。
- 整合深度、深度姿态和深度不确定性相对于消融变体(Dd、Dp、Du)带来显著提升。
- 该方法在 EuRoC 上达到与最先进 VIO 方法相当的性能,同时仅使用单摄像头。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。