QUICK REVIEW

[论文解读] Self-Improving Visual Odometry

Daniel DeTone, Tomasz Malisiewicz|arXiv (Cornell University)|Dec 8, 2018

Robotics and Sensor-Based Localization参考文献 22被引用 31

一句话总结

该论文提出了一种自监督视觉里程计框架，利用其自身的视觉里程计输出来迭代优化卷积神经网络前端。通过在ScanNet数据集的250万张单目图像上进行训练，该系统学习到一个稳定性分类器，可抑制不可靠特征（如高光、动态物体等），在3D到2D位姿估计和轨迹估计任务中优于SIFT、ORB、SuperPoint和LF-Net。

ABSTRACT

We propose a self-supervised learning framework that uses unlabeled monocular video sequences to generate large-scale supervision for training a Visual Odometry (VO) frontend, a network which computes pointwise data associations across images. Our self-improving method enables a VO frontend to learn over time, unlike other VO and SLAM systems which require time-consuming hand-tuning or expensive data collection to adapt to new environments. Our proposed frontend operates on monocular images and consists of a single multi-task convolutional neural network which outputs 2D keypoints locations, keypoint descriptors, and a novel point stability score. We use the output of VO to create a self-supervised dataset of point correspondences to retrain the frontend. When trained using VO at scale on 2.5 million monocular images from ScanNet, the stability classifier automatically discovers a ranking for keypoints that are not likely to help in VO, such as t-junctions across depth discontinuities, features on shadows and highlights, and dynamic objects like people. The resulting frontend outperforms both traditional methods (SIFT, ORB, AKAZE) and deep learning methods (SuperPoint and LF-Net) in a 3D-to-2D pose estimation task on ScanNet.

研究动机与目标

开发一种自监督学习框架，使视觉里程计前端能够在无外部监督或人工调参的情况下持续改进。
解决传统及外部监督视觉里程计系统存在的局限性，这些系统需要昂贵的数据采集或手工调校启发式规则以适应新环境。
学习一种稳定性分类器，仅基于单目序列的时间一致性，识别并抑制不可靠关键点（如动态物体、阴影或深度不连续区域上的关键点）。
在位姿估计精度方面超越现有基于学习和传统的方法，特别是在同名点匹配基线较大、单应性假设失效的情况下。

提出的方法

一个多任务卷积神经网络在单次前向传播中同时预测2D关键点位置、描述符以及一种新型点稳定性得分。
系统使用视觉里程计后端在帧间跟踪关键点，并通过捆绑调整估计3D点并计算重投影误差。
将稳定性关键点（定义为重投影误差较低的关键点）用作自监督信号，重新训练前端网络，形成闭环学习系统。
通过基于重投影误差的二元交叉熵损失，端到端训练稳定性分类器，学习抑制不稳定特征，而无需显式标注。
该方法利用大规模未标注单目视频（来自ScanNet的250万张图像），通过迭代自监督实现前端的持续改进。
后端使用PnP结合RANSAC估计相对相机位姿，稳定性置信度值在优化中作为权重使用，以降低不可靠匹配的影响。

实验结果

研究问题

RQ1视觉里程计系统能否在无外部监督的未标注单目视频中，仅通过时间一致性实现自我改进？
RQ2所学习的稳定性分类器能否有效抑制如动态物体、高光和深度不连续区域等不可靠关键点？
RQ3通过视觉里程计输出进行自监督，是否能提升3D到2D位姿估计的准确性，优于传统和基于学习的基线方法？
RQ4在同名点基线较大、单应性监督失效的情况下，系统性能如何？
RQ5该稳定性分类器能否在多样化场景中泛化，并通过密集热力图可视化不稳定图像区域？

主要发现

所提出的SuperPointVO方法在ScanNet数据集上的3D到2D位姿估计任务中优于SIFT、ORB、AKAZE、SuperPoint和LF-Net，分别在30、60和90帧时间差下实现1.5%、7.5%和15%的旋转误差相对降低。
在VO后端中引入稳定性分类器后，10秒子轨迹的平均旋转误差降低7.5%，平移误差降低12.5%，最佳结果在表2中以粗体标出。
稳定性分类器成功识别并抑制了如光照高光、重复纹理和T型接头等不稳定区域，其结果在ScanNet和Freiburg数据集的密集稳定性热力图中得到可视化。
与SuperPoint相比，该系统在非平面场景中展现出更优的宽基线匹配性能，此时单应性假设不成立。
该方法无需微调即可良好泛化至新环境，因为稳定性分类器仅通过时间一致性学习到鲁棒的、与场景无关的特征。
自监督循环实现了持续改进：前端随时间推移学习到检测更多稳定且具有区分性的特征，从而减少对人工设计启发式规则的依赖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。