Skip to main content
QUICK REVIEW

[논문 리뷰] Optimal hashing-based time-space trade-offs for approximate near neighbors

Alexandr Andoni, Thijs Laarhoven|arXiv (Cornell University)|2017. 01. 16.
Advanced Image and Video Retrieval Techniques인용 수 60
한 줄 요약

이 논문은 d차원 유클리드 공간에서 모든 근사 인자 c > 1에 대해 부분선형 쿼리 시간과 근선형 공간을 동시에 달성하는 해시 기반 데이터 구조를 처음으로 제안한다. 새로운 방식의 구면 LSH와 데이터에 의존하는 해시를 조합함으로써 시간-공간 상호보완 관계를 엄밀히 규명하였으며, 공간이 n^{1+o(1)}일 때 최적의 ρq = 0.43를 달성하고, 모든 공간 범위에서 이전의 결과를 개선하거나 동일하게 유지한다.

ABSTRACT

We show tight upper and lower bounds for time-space trade-offs for the c-approximate Near Neighbor Search problem. For the d-dimensional Euclidean space and n-point datasets, we develop a data structure with space n1+ρu+o(1) + O(dn) and query time nρq+o(1) + dno(1) for every ρu, ρq ≥ 0 with:[EQUATION]In particular, for the approximation c = 2 we get:• Space n1.77 ... and query time no(1), significantly improving upon known data structures that support very fast queries [IM98, KOR00];• Space n1.14... and query time n0.14..., matching the optimal data-dependent Locality-Sensitive Hashing (LSH) from [AR15];• Space n1+o(1) and query time n0.43..., making significant progress in the regime of near-linear space, which is arguably of the most interest for practice [LJW+07].This is the first data structure that achieves sublinear query time and near-linear space for every approximation factor c > 1, improving upon [Kap15]. The data structure is a culmination of a long line of work on the problem for all space regimes; it builds on Spherical Locality-Sensitive Filtering [BDGL16] and data-dependent hashing [AINR14, AR15].Our matching lower bounds are of two types: conditional and unconditional. First, we prove tightness of the whole trade-off (0.1) in a restricted model of computation, which captures all known hashing-based approaches. We then show unconditional cell-probe lower bounds for one and two probes that match (0.1) for ρq = 0, improving upon the best known lower bounds from [PTW10]. In particular, this is the first space lower bound (for any static data structure) for two probes which is not polynomially smaller than the one-probe bound. To show the result for two probes, we establish and exploit a connection to locally-decodable codes.

연구 동기 및 목표

  • 고차원 유클리드 공간에서 c-근사 근접 이웃 검색의 시간-공간 상호보완 관계 간극을 메우기.
  • 모든 근사 인자 c > 1에 대해 부분선형 쿼리 시간과 근선형 공간을 동시에 달성하는 데이터 구조 개발.
  • 다양한 계산 모델 하에서 해시 기반 접근법에 대한 엄밀한 상한 및 하한을 설정하기.
  • 데이터에 의존하는 해시와 구면 LSH 필터링 분야의 이전 연구를 통합하고 개선하기.
  • 일반적인 셀-프로브 하한을 증명하여, 한 번과 두 번의 프로브에 대해 상한과 일치하는 결과를 도출하기.

제안 방법

  • 구면 국소감지감지 필터링과 데이터에 의존하는 해시를 조합하여 최적의 시간-공간 상호보완 관계를 달성하는 데이터 구조 설계.
  • AINR14, AR15 및 BDGL16의 기법을 통합하여 제어 가능한 ρu 및 ρq 파라미터를 가진 해시 체계 구축.
  • 모든 c > 1에 대해 ρq ≤ (c² - 1)ρu / (c² + 2c - 1)의 상호보완 관계를 유도함으로써 시간-공간 효율성을 규명.
  • 모든 알려진 해시 기반 방법을 포괄하는 제한된 모델에서 상호보완 관계의 조건부 엄밀함을 증명.
  • 지역적으로 복원 가능한 코드와의 연결을 통해, 한 번과 두 번의 프로브에 대한 일반적인 셀-프로브 하한을 설정.
  • 지역적으로 복원 가능한 코드와의 연결을 활용하여, 두 번 프로브 시의 하한이 한 번 프로브 시의 하한보다 다항적으로 작지 않음을 증명.

실험 결과

연구 질문

  • RQ1해시 기반 데이터 구조가 모든 c > 1에 대해 부분선형 쿼리 시간과 근선형 공간을 동시에 달성할 수 있는가?
  • RQ2d차원 유클리드 공간에서 c-근사 근접 이웃 검색의 최적 시간-공간 상호보완 관계는 무엇인가?
  • RQ3제안된 상한이 엄밀한가? 그리고 이는 일반적인 하한에 의해 동일하게 달성될 수 있는가?
  • RQ4두 번 프로브 시의 일반적인 하한이 한 번 프로브 시의 하한만큼 강력한가?
  • RQ5지역적으로 복원 가능한 코드는 두 번 프로브 데이터 구조에 대해 강력한 하한을 도출하는 데 어떤 역할을 하는가?

주요 결과

  • c = 2일 때, 데이터 구조는 공간 n^{1.77...}과 쿼리 시간 n^{o(1)}을 달성하여 이전의 빠른 쿼리 구조보다 크게 향상된다.
  • c = 2일 때, 공간 n^{1.14...}과 쿼리 시간 n^{0.14...}을 달성하며, [AR15]에서 제안한 최적의 데이터에 의존하는 LSH와 동일한 성능을 보인다.
  • 근선형 공간 n^{1+o(1)}일 경우, 쿼리 시간은 n^{0.43...}으로, 실용적 범위에서의 주요 진전을 이룬다.
  • 논문은 두 번 프로브에 대해 다항적으로 작지 않은 일반적인 셀-프로브 하한을 처음으로 증명하였다.
  • 제한된 모델에서 ρq ≤ (c² - 1)ρu / (c² + 2c - 1)의 상호보완 관계가 엄밀함을 증명하였으며, 이는 모든 알려진 해시 기반 방법을 포괄한다.
  • 지역적으로 복원 가능한 코드와의 새로운 연결을 설정하고 이를 활용하여 두 번 프로브 시의 강력한 하한을 증명하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.