Skip to main content
QUICK REVIEW

[논문 리뷰] UnsuperPoint: End-to-end Unsupervised Interest Point Detector and Descriptor

Peter Christiansen, Mikkel Fly Kragh|arXiv (Cornell University)|2019. 07. 09.
Advanced Image and Video Retrieval Techniques참고 문헌 47인용 수 73
한 줄 요약

UnsuperPoint는 의사 ground-truth 없이 관심점에 대한 엔드-투-엔드 자가감시 탐지기와 디스크립터를 도입하여 점수, 위치, 디스크립터를 학습하고 실시간 성능과 경쟁력 있는 정확도를 가능하게 한다.

ABSTRACT

It is hard to create consistent ground truth data for interest points in natural images, since interest points are hard to define clearly and consistently for a human annotator. This makes interest point detectors non-trivial to build. In this work, we introduce an unsupervised deep learning-based interest point detector and descriptor. Using a self-supervised approach, we utilize a siamese network and a novel loss function that enables interest point scores and positions to be learned automatically. The resulting interest point detector and descriptor is UnsuperPoint. We use regression of point positions to 1) make UnsuperPoint end-to-end trainable and 2) to incorporate non-maximum suppression in the model. Unlike most trainable detectors, it requires no generation of pseudo ground truth points, no structure-from-motion-generated representations and the model is learned from only one round of training. Furthermore, we introduce a novel loss function to regularize network predictions to be uniformly distributed. UnsuperPoint runs in real-time with 323 frames per second (fps) at a resolution of $224 imes320$ and 90 fps at $480 imes640$. It is comparable or better than state-of-the-art performance when measured for speed, repeatability, localization, matching score and homography estimation on the HPatch dataset.

연구 동기 및 목표

  • 자연 이미지의 관심점에 대해 일관된 ground truth를 얻는 어려움을 동기부여하고 비지도 탐지기와 디스크립터를 구축하는 것을 목표로 한다.
  • 점 위치, 점수, 디스크립터를 함께 예측하는 엔드-투-엔드 학습 가능한 네트워크를 개발한다.
  • SfM이나 가짜 ground-truth 생성 없이 자기지도(self-supervision)로 한 번의 학습 패스에서 학습을 가능하게 한다.
  • 견고성과 커버리지 향상을 위해 예측의 균일한 공간 분포를 정규화한다.

제안 방법

  • 점수, 위치, 디스크립터 맵을 출력하기 위해 태스크 특화 서브모듈을 갖춘 공유 CNN 백본을 사용한다.
  • 미분가능한 학습과 암시적 비최대 억제(NMS)를 가능하게 하기 위해 상대적 점 위치를 회귀로 예측한다.
  • 임의의 호모그래피 및 증강을 사용한 시암쌍 자가감독 프레임워크를 적용하여 뷰 간에 대응하는 점쌍을 생성한다.
  • 점-쌍 위치와 점수를 정렬하고 재현성을 촉진하는 새로운 UnSupervised Point (USP) 손실을 도입한다.
  • 예측 점의 공간 분포를 정규화하기 위한 균일한 XY 분포 손실을 추가한다.
  • 촘촘하고 구별되는 디스크립터를 학습하기 위해 힌지 형태의 디스크립터 손실과 비상관화 손실을 포함한다.

실험 결과

연구 질문

  • RQ1엔드-투-엔드 네트워크가 가짜 ground truth나 SfM 가이드 없이 자기지도 방식으로 관심점 탐지와 기술(description)을 모두 학습할 수 있는가?
  • RQ2통합된 NMS 유사 동작을 갖춘 회귀 기반 점 위치 추정이 실시간 애플리케이션에서 경쟁력 있는 속도와 정확도를 산출하는가?
  • RQ3균일한 점 분포와 디스크립터 상관 제거에 대한 보조 손실이 재현성, 위치 추정 및 매칭에 어떤 영향을 미치는가?
  • RQ4네트워크 내부의 디스크립터 보간이 학습과 추론에 도움이 되는가?
  • RQ5HPatch와 같은 표준 벤치마크에서 최첨단 방법과 비교해 UnsuperPoint의 성능은 어떠한가?

주요 결과

  • UnsuperPoint는 224x320 해상도에서 323 fps, 480x640에서 90 fps라는 실시간 성능을 달성하면서 속도 관련 지표에서도 경쟁력 있거나 우수한 성능을 제공합니다.
  • 모델은 의사 ground-truth 포인트를 생성하거나 SfM 기반 표현에 의존하지 않고 점 위치, 점수 및 디스크립터를 엔드-투-엔드로 학습합니다.
  • 회귀 기반 위치 예측은 네트워크 내의 미분 가능 학습 및 암시적 비최대 억제를 가능하게 한다.
  • 균일한 XY 정규화는 경계 클러스터링을 줄이고 더 균일한 공간 점 분포를 산출한다.
  • 디스크립터 보간, 균일한 점 예측 및 디스크립터 상관 제거는 각각 재현성, 위치 정확도 및 HPatch에서의 매칭 성능에 측정 가능한 향상을 제공합니다.
  • 이 방법은 속도, 재현성, 위치 추정, 매칭 점수 및 HPatch의 호모그래피 추정에서 최첨단 탐지기와의 우호적인 비교를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.