QUICK REVIEW

[논문 리뷰] ATDN vSLAM: An all-through Deep Learning-Based Solution for Visual Simultaneous Localization and Mapping

Mátyás Szántó, György Richárd Bogár|arXiv (Cornell University)|2022. 06. 13.

Robotics and Sensor-Based Localization참고 문헌 45인용 수 3

한 줄 요약

이 논문은 변동성 UNet 백본과 지ap 인식을 위한 새로운 임베딩 거리 손실(EDL)을 사용한 모듈식 아키텍처를 갖춘 엔드 투 엔드 딥 러닝 기반 시각 SLAM 시스템인 ATDN vSLAM을 제안한다. KITTI 00 시퀀스에서 4.4%의 이동 오차와 0.0176 deg/m의 회전 오차를 기록하며, 온라인 옵티컬 플로우를 사용하지 않을 경우 0.006초의 낮은 지연 시간을 기록하여 최신 기술 수준의 성능을 입증한다.

ABSTRACT

In this paper, a novel solution is introduced for visual Simultaneous Localization and Mapping (vSLAM) that is built up of Deep Learning components. The proposed architecture is a highly modular framework in which each component offers state of the art results in their respective fields of vision-based deep learning solutions. The paper shows that with the synergic integration of these individual building blocks, a functioning and efficient all-through deep neural (ATDN) vSLAM system can be created. The Embedding Distance Loss function is introduced and using it the ATDN architecture is trained. The resulting system managed to achieve 4.4% translation and 0.0176 deg/m rotational error on a subset of the KITTI dataset. The proposed architecture can be used for efficient and low-latency autonomous driving (AD) aiding database creation as well as a basis for autonomous vehicle (AV) control.

연구 동기 및 목표

단일 시각 SLAM을 위한 완전한 엔드 투 엔드 딥 러닝 파이프라인을 개발하여, 기존 수작업으로 설계된 방법의 한계를 극복한다.
최신 딥 러닝 컴포넌트를 모듈식이고 상호보완적인 프레임워크에 통합하여 시각 오도메트리 및 밀도 맵핑을 수행한다.
지도 표현과 정렬 정확도 향상을 위해 새로운 손실 함수인 임베딩 거리 손실(EDL)을 도입한다.
실시간 자율 주행 응용 및 커뮤니티 기반 맵핑에 적합한 효율적이고 낮은 지연 시간을 갖춘 운영을 가능하게 한다.
미래의 확장 사례인 루프 클로징 및 다양한 데이터셋 간의 일반화 향상을 위한 기반을 마련한다.

제안 방법

시스템은 시각 오도메트리와 지도 인코딩을 동시에 수행하기 위해 변동성 UNet 기반의 인코더-디코더 아키텍처를 사용한다.
옵티컬 플로우는 사전 훈련된 GMA 네트워크를 사용하여 오프라인 또는 온라인으로 추정되며, 이는 운동 추정을 향상시킨다.
지도 인코딩 컴포넌트를 훈련하기 위해 유사한 열쇠 프레임 간의 임베딩 거리가 최소화되도록 하는 새로운 임베딩 거리 손실(EDL) 함수를 도입한다.
사진학적 손실과 EDL 손실의 조합을 통해 엔드 투 엔드로 훈련되며, 사전 훈련된 옵티컬 플로우 모델을 활용한 전이 학습이 적용된다.
아키텍처는 모듈식이므로, 다른 옵티컬 플로우 추정기와 같은 다양한 컴포넌트를 즉시 통합할 수 있다.
추론은 낮은 지연 시간을 위해 최적화되어 있으며, 온라인 플로우를 사용하지 않을 경우 프레임당 0.006초, 사용할 경우 0.27초의 시간을 기록한다 (GPU 기준).

실험 결과

연구 질문

RQ1완전한 엔드 투 엔드 딥 러닝 파이프라인이 기존 최신 기술 수준의 전통적 방법과 비교해 경쟁 가능한 성능을 달성할 수 있는가?
RQ2제안된 임베딩 거리 손실(EDL)이 지도 표현과 정렬 정확도 향상에 얼마나 효과적인가?
RQ3온라인 옵티컬 플로우 추정을 통합할 경우 성능과 지연 시간 사이의 상호 교환 관계는 어떠한가?
RQ4KITTI 벤치마크의 시퀀스 00 이외의 다른 시퀀스로의 일반화 정도는 어느 정도인가?
RQ5모듈성과 전이 학습을 어떻게 활용하여 확장 가능하고 효율적이며 유연한 vSLAM 프레임워크를 구축할 수 있는가?

주요 결과

ATDN vSLAM 시스템은 KITTI 00 시퀀스에서 4.4%의 이동 오차와 0.0176 deg/m의 회전 오차를 기록하여 최신 기술 수준의 성능을 달성했다.
온라인 옵티컬 플로우를 사용하지 않을 경우 프레임당 0.006초의 런타임을 기록하여 높은 효율성과 낮은 지연 시간을 입증했다.
온라인 옵티컬 플로우를 사용할 경우 런타임은 0.27초로 증가했지만, 여전히 실시간 응용에 적합한 수준을 유지했다.
정성적 결과를 통해 시스템은 인식 가능하고 일관성 있는 궤적을 생성하는 것으로 나타났지만, 다른 시퀀스로의 일반화 능력은 현재 제한되어 있다.
제안된 임베딩 거리 손실(EDL)은 구분 가능한 열쇠 프레임 임베딩을 학습함으로써 정확한 재정렬을 가능하게 한다.
모듈식 설계 덕분에 향후 루프 클로징 통합과 다중 GPU를 통한 병렬 처리를 통해 성능 향상을 더욱 이룰 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.