QUICK REVIEW

[논문 리뷰] Approximate Nearest Neighbors Search Without False Negatives For l_2 For c>sqrt{loglog{n}}

Piotr Sankowski, Piotr Wygocki|arXiv (Cornell University)|2017. 01. 01.

Computational Geometry and Mesh Generation참고 문헌 6인용 수 1

한 줄 요약

이 논문은 고차원 l2 공간에서 거짓 음성 없이 c-근사 최근접 이웃 검색을 위한 새로운 데이터 구조를 제안한다. 이는 임의의 c > √log log n 에 대해 다항로그 시간(query time)과 다항시간 전처리를 달성한다. 차원 축소를 통해 문제를 줄이고, max-l2 기반 최근접 이웃 원리(primitive)를 활용함으로써 이전에 요구되었던 c = Ω(√d) 조건을 초월하여, 대규모 고엔트로피 데이터셋에 대해 훨씬 효율적으로 작동한다.

ABSTRACT

In this paper, we report progress on answering the open problem presented by Pagh [11], who considered the near neighbor search without false negatives for the Hamming distance. We show new data structures for solving the c-approximate near neighbors problem without false negatives for Euclidean high dimensional space \mathcal{R}^d. These data structures work for any c = \omega(\sqrt{\log{\log{n}}}), where n is the number of points in the input set, with poly-logarithmic query time and polynomial pre-processing time. This improves over the known algorithms, which require c to be \Omega(\sqrt{d}). This improvement is obtained by applying a sequence of reductions, which are interesting on their own. First, we reduce the problem to d instances of dimension logarithmic in n. Next, these instances are reduced to a number of c-approximate near neighbor search without false negatives instances in \big(\Rspace^k\big)^L space equipped with metric m(x,y) = \max_{1 \le i \leL}(\dist{x_i - y_i}_2).

연구 동기 및 목표

고차원 l2 공간에서 근사 인자 c > √log log n 인 경우 거짓 음성 없는 c-근사 최근접 이웃 검색 문제를 해결하는 것.
이전에 요구되었던 c = Ω(√d) 조건을 초월하여 고차원에서의 알고리즘 실행 가능성을 향상시키는 것.
다항로그 시간 쿼리와 다항 시간 전처리를 갖는 데이터 구조를 설계하는 것.
차원 축소 기법을 사용하여 고차원 문제를 다수의 저차원 하위 문제로 환원하는 것.
거짓 음성에 대한 결정론적 보장을 확보하여 모든 진짜 이웃이 항상 반환되도록 보장하는 것.

제안 방법

코로나리 5에서 유도된 차원 축소 기법을 사용하여 원래의 d차원 문제를 O(log n) 차원의 d개의 문제로 환원한다.
각 축소된 문제를 거리 함수 m(x,y) = max_{1≤i≤L} ||x_i - y_i||_2 기반의 max-l2 최근접 이웃 문제로 변환한다.
거짓 음성을 최소화하는 데 중점을 둔 국소성 감지 해싱(LSH)을 활용한 해싱 기반 환원 절차를 순차적으로 적용한다.
w 반복을 수행하는 다단계 해싱 체계를 사용하여 각 점에 대해 3^{wL}개의 해시를 계산함으로써 효율적인 후보 필터링을 가능하게 한다.
각 하위 문제를 max-l2_NN 원리를 활용해 유한한 거짓 양성 확률로 해결한 후, 정확한 거리 검증을 통해 후보를 필터링한다.
전처리 시간과 쿼리 시간의 균형을 맞추기 위해 반복 수 w를 최적화하여 n에 대해 비선형 의존성을 달성한다.

실험 결과

연구 질문

RQ1c > √log log n 인 고차원 l2 공간에서 거짓 음성 없는 c-근사 최근접 이웃 검색을 효율적으로 해결할 수 있는가?
RQ2c에 대한 의존성을 Ω(√d)에서 o(√d)로 줄일 수 있는가? 이때 다항로그 시간 쿼리 성능은 유지되는가?
RQ3고차원 l2 문제를 다룰 수 있는 하위 문제로 환원할 수 있는 환원 기법은 무엇인가? 이는 거짓 음성 방지를 보장해야 한다.
RQ4max-l2_NN 원리가 NNwfn 문제를 다항로그 시간 이내에 효과적으로 해결하는 데 사용될 수 있는가?
RQ5유도된 시간 복잡도는 최적인가, 아니면 추가로 향상시킬 수 있는가?

주요 결과

논문은 쿼리 시간 Õ(d² + d n^{o(1)} |P|) 와 전처리 시간 Õ(d²n + d n^{1 + ln 3 / ln(c/μ) + 1/f(n)}) 을 달성한다. 여기서 μ = D √(f(n) log log n).
알고리즘은 임의의 c > √log log n 에 대해 작동하며, 이전 방법이 요구했던 c = Ω(√d) 조건을 크게 초월하여 성능을 향상시킨다.
차원 축소 이후 하위 문제의 수는 Õ(n^{1/f(n)}) 이하로 제한되며, 느리게 증가하는 f(n)에 대해 이는 n에 대해 다항식 이하이다.
max-l2_NN 원리를 활용함으로써 결정론적 거짓 음성 방지를 달성하면서도 효율적인 쿼리 성능 유지를 가능하게 한다.
상수 c에 대해 알고리즘의 쿼리 시간은 n에 대해 비선형이며, 전처리 시간은 n과 d에 대해 다항식이다.
이 프레임워크는 일반적이며, 기반 해싱 및 환원 기법을 조정함으로써 다른 거리 척도로도 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.