QUICK REVIEW

[논문 리뷰] Hierarchical Scene Coordinate Classification and Regression for Visual Localization

Xiaotian Li, Shuzhe Wang|arXiv (Cornell University)|2019. 09. 13.

Robotics and Sensor-Based Localization참고 문헌 68인용 수 132

한 줄 요약

논문은 단일 이미지 RGB 로컬라이제이션을 개선하기 위해 피ixel 위치 조건 FiLM 유사 모듈이 포함된 계층적, 거친-정밀(Scene Coordinate) 네트워크를 제안하며, 여러 데이터셋에서 최첨단 결과를 달성하고 대규모 환경에 대한 확장 가능한 성능을 보여준다.

ABSTRACT

Visual localization is critical to many applications in computer vision and robotics. To address single-image RGB localization, state-of-the-art feature-based methods match local descriptors between a query image and a pre-built 3D model. Recently, deep neural networks have been exploited to regress the mapping between raw pixels and 3D coordinates in the scene, and thus the matching is implicitly performed by the forward pass through the network. However, in a large and ambiguous environment, learning such a regression task directly can be difficult for a single network. In this work, we present a new hierarchical scene coordinate network to predict pixel scene coordinates in a coarse-to-fine manner from a single RGB image. The network consists of a series of output layers, each of them conditioned on the previous ones. The final output layer predicts the 3D coordinates and the others produce progressively finer discrete location labels. The proposed method outperforms the baseline regression-only network and allows us to train compact models which scale robustly to large environments. It sets a new state-of-the-art for single-image RGB localization performance on the 7-Scenes, 12-Scenes, Cambridge Landmarks datasets, and three combined scenes. Moreover, for large-scale outdoor localization on the Aachen Day-Night dataset, we present a hybrid approach which outperforms existing scene coordinate regression methods, and reduces significantly the performance gap w.r.t. explicit feature matching methods.

연구 동기 및 목표

큰 규모 또는 애매한 환경에서 강건한 단일 이미지 RGB 로컬라이제이션을 동기부여한다.
격자 위치 레이블을 예측하고 연속적인 3D 좌표를 예측하는 계층적, 거친-정밀 네트워크를 개발한다.
거칠은 위치 정보를 더 세밀한 예측으로 확산시키는 요소별 조건화 계층을 도입한다.
소형/중형 데이터셋에서의 최첨단 로컬라이제이션과 대규모 야외 환경에 대한 확장 가능한 접근법을 시연한다.
압축형 모델이 회귀 기반의 기초 방법 및 기존 방법을 능가하거나 경쟁할 수 있음을 보여준다.

제안 방법

픽셀에 대해 이질적 위치 레이블을 다중 수준에서 예측하고 위치 좌표를 연속적으로 예측하는 계층적 장면 좌표 네트워크를 도입한다.
예측된 거친 위치 레이블을 기반으로 특징을 조절하는 출력층 전의 조건화 계층(FiLM 유사, 하지만 공간 위치별로)을 사용한다.
각 레벨에서의 분류와 3D 좌표 회귀를 결합하는 공동 손실 L = w1 Lc^1 + w2 Lc^2 + w3 Lr로 학습한다.
거친 수준에서 수용영역이 점진적으로 커지고 미세 수준에서 더 작고 국지화된 효과를 갖도록 글로벌에서 로컬로 설계한다.
최종 회귀 단계 없이 충분히 미세한 위치 레이블을 사용하여 분류만 가능한 변형을 가능하게 한다.
7-Scenes, 12-Scenes, Cambridge Landmarks, 대규모 i7-/i12-/i19-Scenes 및 혼합 접근법이 적용된 Aachen Day-Night에서 검증한다.

실험 결과

연구 질문

RQ1거친-정밀 위치 레이블링이 회귀 기반 모델에 비해 대규모 또는 애매한 장면에서 해상도 저해(disambiguation)를 개선할 수 있는가?
RQ2제안된 조건화 메커니즘이 회귀 기반 기초 및 기존 방법에 비해 정확도, 스케일에 대한 강건성, 모델 크기에 어떤 영향을 미치는가?
RQ3계층적 깊이/너비 및 수용영역 선택이 데이터셋 및 합쳐진 장면에서 로컬라이제이션 성능에 어떤 영향을 미치는가?
RQ4희소 특징 및 이미지 검색을 사용하여 Aachen Day-Night와 같은 야외/대규모 로컬라이제이션에 방법을 어떻게 적용할 수 있는가?
RQ5조건화가 있는 공동 분류-회귀 형태가 단일 이미지 RGB 로컬라이제이션에서 최첨단을 달성하는가?

주요 결과

계층적 조건부 네트워크가 7-Scenes, 12-Scenes, Cambridge Landmarks에서 단일 이미지 RGB 로컬라이제이션 최첨단을 달성했다.
회귀 기반 기초보다 대규모 환경(i7-/i12-/i19-Scenes)에서 특히 합성된 장면에서 더 강건하게 확장된다.
모델은 컴팩트하게 남아 있으며 일부 기존 앙상블 접근법(예: ESAC)에 비해 크기를 상당히 줄이면서도 경쟁력 있는 정확도를 제공한다.
Aachen Day-Night에서 계층적 네트워크를 희소 특징 및 이미지 검색과 결합한 하이브리드 접근법은 ESAC를 크게 능가하고 큰 특징 데이터베이스를 저장하지 않고도 특징 기반 방법에 근접한 성능을 보인다.
조건화 메커니즘은 결정적으로 중요하다: 조건화를 제거하면 더 큰 환경에서 성능이 크게 저하된다.
데이터 증강은 제안된 방법에 일반적으로 도움이 되지만 데이터세트에 따라 효과가 다르게 나타나며, 일부 대규모 설정에서는 증강 없이도 강한 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.