QUICK REVIEW

[논문 리뷰] Improved Visual Relocalization by Discovering Anchor Points

Soham Saha, Girish Varma|arXiv (Cornell University)|2018. 11. 11.

Robotics and Sensor-Based Localization인용 수 25

한 줄 요약

이 논문은 현재 시점에서 보이는 관련 임베딩 포인트(지표점)를 찾아내는 데 중점을 두어, 가장 가까운 지점에 의존하지 않는 새로운 딥러닝 접근법을 제안한다. 다중작업 학습 문제로 설정함으로써 가장 관련성이 높은 임베딩 포인트를 분류하고 상대적 오프셋을 회귀시키는 방식으로, 정위치 정확도를 크게 향상시켰으며, 캐번지 랜드마크의 스트리트 씬에서 중앙 오차를 8m 이상 감소시켰고, 7 Scenes 실내 데이터셋 전반에서 0.2m 이내의 정위치 오차를 달성하여, 기하학적 재투영 손실을 사용하는 PoseNet과 같은 이전 최고 성능 모델을 능가한다.

ABSTRACT

We address the visual relocalization problem of predicting the location and camera orientation or pose (6DOF) of the given input scene. We propose a method based on how humans determine their location using the visible landmarks. We define anchor points uniformly across the route map and propose a deep learning architecture which predicts the most relevant anchor point present in the scene as well as the relative offsets with respect to it. The relevant anchor point need not be the nearest anchor point to the ground truth location, as it might not be visible due to the pose. Hence we propose a multi task loss function, which discovers the relevant anchor point, without needing the ground truth for it. We validate the effectiveness of our approach by experimenting on CambridgeLandmarks (large scale outdoor scenes) as well as 7 Scenes (indoor scenes) using variousCNN feature extractors. Our method improves the median error in indoor as well as outdoor localization datasets compared to the previous best deep learning model known as PoseNet (with geometric re-projection loss) using the same feature extractor. We improve the median error in localization in the specific case of Street scene, by over 8m.

연구 동기 및 목표

GPS가 사용 불가능한 환경, 예를 들어 실내 및 대규모 실외 지역에서의 시각적 재정위치 과제를 해결하기 위해.
가장 가까운 지점이나 기하학적으로 최적의 지점 대신, 시야에 보이는 관련 있는 지표점(임베딩 포인트)을 활용하여 인간의 탐색 방식을 모델링함으로써 정위치 정확도를 향상시키기 위해.
학습 중에 진짜 임베딩 포인트 레이블이 필요 없도록, 종단 간에 관련 있는 임베딩 포인트를 자동으로 탐지하는 자기지도 학습 손실 함수를 설계함으로써 진짜 임베딩 포인트 애너테이션의 필요성을 제거하기 위해.
표준 CNN 특징 추출기만을 사용하여 다양한 환경—대규모 실외 환경과 소규모 실내 환경—에서 강력한 성능을 달성하기 위해.
임베딩 포인트 탐지가 직접 회귀나 특징 교체만으로 이루어지는 것보다 더 나은 일반화와 정확도를 달성할 수 있음을 입증하기 위해.

제안 방법

해당 방법은 경로 맵 전반에 균일하게 분포된 임베딩 포인트를 정의하여 정위치를 위한 기준 지표점으로 사용한다.
딥 뉴럴 네트워크를 학습시켜 입력 이미지를 사전 정의된 임베딩 포인트 중 하나로 분류함으로써, 가장 관련성이 높은 시야 내 지표점을 식별한다.
네트워크는 同시에 예측된 임베딩 포인트 기준의 6-DOF(3D 위치 및 3D 자세) 오프셋을 회귀한다.
학습 중에 진짜 레이블 없이도 관련 있는 임베딩 포인트를 자동으로 탐지할 수 있도록, 새로운 다중작업 손실 함수를 도입한다.
손실 함수는 분류 오차와 상대적 오프셋 회귀 오차를 동시에 최소화하여, 명시적인 임베딩 포인트 애너테이션 없이 종단 간 학습이 가능하게 한다.
정확도와 추론 속도 간의 트레이드오프를 평가하기 위해 여러 CNN 특징 추출기(GoogleNet, DenseNet, MobileNet)를 사용하여 평가한다.

실험 결과

연구 질문

RQ1딥러닝 모델이 이러한 지점의 진짜 애너테이션을 요구하지 않고도, 정위치를 위한 가장 관련성이 높은 시야 내 임베딩 포인트를 자동으로 탐지할 수 있는가?
RQ2가장 가까운 지점이나 기하학적으로 최적의 지점 대신, 학습된 시야 내 임베딩 포인트를 사용할 경우 실내 및 실외 환경 전반에서 정위치 정확도가 향상되는가?
RQ3자기지도 학습 손실 함수를 갖는 제안된 다중작업 학습 프레임워크는 기하학적 재투영 손실을 사용하는 PoseNet과 같은 직접 회귀 기반 모델보다 어떻게 비교되는가?
RQ4정위치 정확도와 모델 복잡도 측면에서 최적의 임베딩 포인트 간격은 어느 정도인가?
RQ5가벼운 특징 추출기인 MobileNet을 사용할 경우, 실시간 성능 유지를 하면서도 높은 정확도를 달성할 수 있는가?

주요 결과

제안된 방법은 이전 최고 성능인 PoseNet(기하학적 재투영 손실 사용) 대비 캐번지 랜드마크 데이터셋의 스트리트 씬에서 중앙 오차를 8m 이상 감소시켰다.
동일한 GoogleNet 특징 추출기를 사용할 때, 캐번지 랜드마크 데이터셋의 6개의 외부 환경 중 4개에서 중앙 오차가 1.5미터 이하, 자세 오차가 4도 이하로 나타났다.
7 Scenes 데이터셋의 모든 실내 환경에서 중앙 오차가 0.2미터 이하로 나타나, 이전의 딥러닝 기반 접근법을 크게 능가했다.
DenseNet을 특징 추출기로 사용했을 때, 샵 페이드 시나리오에서 93.76%의 정확도를 기록했고, 커닝스 칼리지에서는 93.52%의 정확도를 달성하여, 동일한 특징 추출기를 사용하는 단순 회귀기보다 뛰어난 성능을 보였다.
MobileNet 기반 구현은 GoogleNet(760M FLOPs)보다 낮은 FLOPs(569M)를 기록했고, DenseNet(5998M FLOPs)보다도 낮았으며, 대부분의 시나리오에서 GoogleNet보다 낮은 중앙 오차를 유지함으로써, 효율성-정확도 트레이드오프 측면에서 뛰어난 성능을 보였다.
정성적 결과는 학습된 임베딩 포인트가 가장 가까운 포인트보다 더 잘 보이는(예: 나무나 가림물에 의해 가리키지 않는) 경향이 있음을 확인했으며, 이는 방법이 의미적으로 관련 있는 지표점을 선택할 수 있음을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.