QUICK REVIEW

[논문 리뷰] Self-Improving Visual Odometry

Daniel DeTone, Tomasz Malisiewicz|arXiv (Cornell University)|2018. 12. 08.

Robotics and Sensor-Based Localization참고 문헌 22인용 수 31

한 줄 요약

이 논문은 자체 VO 출력을 사용하여 반복적으로 개선되는 컨volution 신경망 프론트엔드를 갖춘 자기지도 학습 시각 옵티모트리 프레임워크를 제안한다. ScanNet에서 확보한 250만 장의 단안 이미지로 훈련함으로써, 시스템은 불안정한 특징(예: 반사, 동적 물체)을 억제하는 안정성 분류기를 학습하며, SIFT, ORB, SuperPoint, LF-Net보다 3D-2D 자세 추정 및 궤적 추정 작업에서 뛰어난 성능을 보인다.

ABSTRACT

We propose a self-supervised learning framework that uses unlabeled monocular video sequences to generate large-scale supervision for training a Visual Odometry (VO) frontend, a network which computes pointwise data associations across images. Our self-improving method enables a VO frontend to learn over time, unlike other VO and SLAM systems which require time-consuming hand-tuning or expensive data collection to adapt to new environments. Our proposed frontend operates on monocular images and consists of a single multi-task convolutional neural network which outputs 2D keypoints locations, keypoint descriptors, and a novel point stability score. We use the output of VO to create a self-supervised dataset of point correspondences to retrain the frontend. When trained using VO at scale on 2.5 million monocular images from ScanNet, the stability classifier automatically discovers a ranking for keypoints that are not likely to help in VO, such as t-junctions across depth discontinuities, features on shadows and highlights, and dynamic objects like people. The resulting frontend outperforms both traditional methods (SIFT, ORB, AKAZE) and deep learning methods (SuperPoint and LF-Net) in a 3D-to-2D pose estimation task on ScanNet.

연구 동기 및 목표

외부 감독이나 수동 튜닝 없이도 시각 옵티모트리 프론트엔드가 시간이 지남에 따라 향상될 수 있도록 자기지도 학습 프레임워크를 개발하는 것.
기존의 전통적 또는 외부 감독을 받는 VO 시스템이 새로운 환경에 적응하기 위해 고비용 데이터 수집 또는 수작업으로 튜닝된 히우리스틱이 필요로 하는 한계를 해결하는 것.
단안 영상 시퀀스의 시간적 일관성만을 이용해, 동적 물체, 그림자, 깊이 불연속성 등에 위치한 불안정한 키포인트를 식별하고 억제하는 안정성 분류기를 학습하는 것.
특히 투영 변환 가정이 실패하는 큰 기준거리 조건에서 자세 추정 정확도를 기존의 학습 기반 및 전통적 VO 방법보다 뛰어나게 향상시키는 것.

제안 방법

다중 작업 컨volution 신경망이 단일 순방향 전파 과정에서 2D 키포인트 위치, 기술자, 그리고 새로운 안정성 점수를 예측한다.
시스템은 키포인트를 프레임 간에 추적하고, 3D 점을 추정하며 재투영 오차를 계산하기 위해 VO 백엔드를 사용한다.
낮은 재투영 오차를 보이는 안정성 있는 키포인트는 자기지도 학습을 위해 프론트엔드 네트워크 재학습에 사용되며, 이는 폐쇄 루프 학습 시스템을 형성한다.
안정성 분류기는 재투영 오차를 바탕으로 이진 교차 엔트로피 손실을 사용해 엔드 투 엔드로 훈련되며, 명시적 애너테이션 없이도 불안정한 특징을 억제하도록 학습한다.
대규모의 레이블이 없는 단안 영상(ScanNet에서 확보한 250만 장의 이미지)을 활용하여, 반복적인 자기지도 학습을 통해 프론트엔드의 지속적인 향상을 가능하게 한다.
백엔드는 RANSAC를 사용한 PnP를 이용해 상대 카메라 자세를 추정하며, 안정성 신뢰도 값은 최적화 과정에서 불안정한 대응 관계의 가중치를 낮추는 데 사용된다.

실험 결과

연구 질문

RQ1레이블이 없는 단안 영상에서 시간적 일관성만을 이용해 자기지도 학습을 통해 시각 옵티모트리 시스템이 외부 감독 없이 스스로 향상될 수 있는가?
RQ2학습된 안정성 분류기가 동적 물체, 반사, 깊이 불연속성 등에 위치한 불안정한 키포인트를 효과적으로 억제할 수 있는가?
RQ3VO 출력을 통한 자기지도 학습이 기존의 전통적 및 학습 기반 기준선 대비 3D-2D 자세 추정 정확도를 향상시키는가?
RQ4투영 변환 기반 감독이 실패하는 큰 기준거리 조건에서 시스템의 성능은 어떠한가?
RQ5안정성 분류기는 다양한 환경에 일반화될 수 있으며, 불안정한 영역을 나타내는 조밀한 히트맵으로 시각화될 수 있는가?

주요 결과

제안된 SuperPointVO 방법은 ScanNet 데이터셋에서 SIFT, ORB, AKAZE, SuperPoint, LF-Net보다 3D-2D 자세 추정 성능이 뛰어나며, 각각 30, 60, 90 프레임 간격에서 회전 오차에 대해 1.5%, 7.5%, 15%의 상대적 향상률을 기록한다.
VO 백엔드에 안정성 분류기를 통합함으로써, 10초 분량의 서브 궤적 전반에서 평균적으로 회전 오차는 7.5% 감소하고, 이동 오차는 12.5% 감소한다. 최고 성능는 표본 2에서 볼드체로 표기되어 있다.
안정성 분류기는 빛 반사, 반복 텍스처, T자형 접합부 등 불안정한 영역을 성공적으로 식별하고 억제하며, ScanNet 및 프라이부르크 데이터셋에서 조밀한 안정성 히트맵으로 시각화되었다.
특히 투영 변환 가정이 실패하는 비평면 환경에서 SuperPoint보다 뛰어난 넓은 기준거리 매칭 성능을 달성했다.
재학습 없이도 새로운 환경에 잘 일반화되며, 시간적 일관성만을 기반으로 안정성에 민감한, 환경에 관계없는 특징을 학습한다.
자기지도 루프 덕분에 지속적인 향상이 가능해졌으며, 프론트엔드는 시간이 지남에 따라 더 안정적이고 특징적인 요소를 탐지하도록 학습되어 수작업 히우리스틱에 대한 의존도를 감소시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.