QUICK REVIEW

[논문 리뷰] Localizing and Orienting Street Views Using Overhead Imagery

Nam Vo|arXiv (Cornell University)|2016. 07. 30.

Advanced Image and Video Retrieval Techniques참고 문헌 29인용 수 21

한 줄 요약

이 논문은 지형도(위성) 영상과의 교차 뷰 매칭을 향상시키기 위해 새로운 손실 함수(DBL)와 명시적 방향성 감독을 도입한 딥 러닝 프레임워크를 제안한다. 이는 11개 미국 도시에서 수집한 100만 장의 스트리트 뷰 및 위성 영상 쌍으로 구성된 새로운 데이터셋에서 기존 시아네스 네트워크 대비 약 2.5배 높은 정확도를 달성한다.

ABSTRACT

In this paper we aim to determine the location and orientation of a ground-level query image by matching to a reference database of overhead (e.g. satellite) images. For this task we collect a new dataset with one million pairs of street view and overhead images sampled from eleven U.S. cities. We explore several deep CNN architectures for cross-domain matching -- Classification, Hybrid, Siamese, and Triplet networks. Classification and Hybrid architectures are accurate but slow since they allow only partial feature precomputation. We propose a new loss function which significantly improves the accuracy of Siamese and Triplet embedding networks while maintaining their applicability to large-scale retrieval tasks like image geolocalization. This image matching task is challenging not just because of the dramatic viewpoint difference between ground-level and overhead imagery but because the orientation (i.e. azimuth) of the street views is unknown making correspondence even more difficult. We examine several mechanisms to match in spite of this -- training for rotation invariance, sampling possible rotations at query time, and explicitly predicting relative rotation of ground and overhead images with our deep networks. It turns out that explicit orientation supervision also improves location prediction accuracy. Our best performing architectures are roughly 2.5 times as accurate as the commonly used Siamese network baseline.

연구 동기 및 목표

지형도(위성) 영상과의 비교를 통해 스트리트 뷰 이미지의 위치 및 방향을 정확히 특정하는 문제를 해결한다.
극단적인 시점 차이와 알려지지 않은 카메라 방향각에도 불구하고 교차 도메인 이미지 매칭 정확도를 향상시킨다.
대규모 이미지 지리적 위치 특정에 적용 가능한 확장 가능한 딥 러닝 프레임워크를 개발한다.
회전 불변성과 명시적 방향 예측 회귀가 표현 학습에 미치는 영향을 조사한다.
교차 뷰 지리적 위치 특정 분야의 발전을 위해 100만 장의 스트리트 뷰 및 지형도 영상 쌍으로 구성된 새로운 대규모 데이터셋을 공개한다.

제안 방법

교차 뷰 매칭을 위한 시아네스 및 트리플릿 네트워크 훈련을 향상시키기 위해 새로운 거리 기반 로지스틱(DBL) 손실 레이어를 제안한다.
지면과 지형도 영상 간의 상대적 회전을 예측하기 위해 명시적 방향 예측 회귀(OR)를 도입하여 방향성 및 위치 특정 정확도를 향상시킨다.
훈련 중 입력에 임의의 회전을 적용하여 회전 불변성(RI) 훈련을 수행한다.
추론 시에 전체 비용 없이 다수의 회전된 컷을 시뮬레이션하기 위해 추론 단계에서 다중방향 특징 평균화(avg16)를 사용한다.
미니배치 내에서 삼중체 샘플링을 철저히 수행하는(eDBL) 방식을 적용하여 훈련 효율성과 수렴 속도를 향상시킨다.
새로운 대규모 데이터셋에서 다양한 아키텍처(분류, 하이브리드, 시아네스, 트리플릿 네트워크)를 훈련 및 평가한다.

실험 결과

연구 질문

RQ1새로운 손실 함수를 사용하여 시아네스 및 트리플릿 네트워크의 교차 뷰 지리적 위치 특정 성능을 크게 향상시킬 수 있는가?
RQ2훈련 중에 명시적 방향 예측 회귀를 적용하면 방향 예측 및 위치 특정 정확도가 향상되는가?
RQ3알 수 없는 방향각을 다루기 위해 회전 불변성 훈련과 테스트 시 데이터 증강 방식을 비교했을 때 어떤 것이 더 우수한가?
RQ4표현 학습에서 회전 불변성과 분류 능력 사이의 최적의 트레이드오프는 무엇인가?
RQ5대규모 공개 데이터셋이 스트리트 뷰 및 지형도 영상 쌍으로 구성된 100만 장의 데이터셋이 교차 뷰 지리적 위치 특정 분야의 진전을 가속화할 수 있는가?

주요 결과

제안된 DBL 손실 함수는 시아네스 및 트리플릿 네트워크의 정확도를 크게 향상시켜 표준 시아네스 기반 기준 대비 약 2.5배 높은 정확도를 달성한다.
명시적 방향 예측 회귀(OR)는 360° 회전 불변성 네트워크에서 성능을 상대적으로 30% 향상시키지만, 90° RI 네트워크에는 도움이 되지 않는다.
다중방향 특징 평균화(avg16)는 16개의 회전된 컷을 테스트하는 것과 유사한 성능을 달성하면서 추론 비용을 줄인다.
철저한 삼중체 샘플링(eDBL)은 더 빠른 수렴을 가능하게 하여 표준 훈련 방식 대비 30,000 반복만으로 유사한 성능에 도달한다.
360° RI + OR + avg16 트리플릿 네트워크는 최고의 랭킹 성능을 기록하며, 위치 특정 정확도와 방향 예측 정확도(평균 오차 17°)가 향상되었다.
11개 미국 도시에서 수집한 100만 장의 스트리트 뷰 및 지형도 영상 쌍으로 구성된 새로운 데이터셋을 공개하여 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.