Skip to main content
QUICK REVIEW

[論文レビュー] Approximate Nearest Neighbors Search Without False Negatives For l_2 For c>sqrt{loglog{n}}

Piotr Sankowski, Piotr Wygocki|arXiv (Cornell University)|Jan 1, 2017
Computational Geometry and Mesh Generation参考文献 6被引用数 1
ひとこと要約

本論文は、任意の c > √log log n に対して、高次元 l2 空間における偽陰性のない c-近似最近傍探索のための新しいデータ構造を提示する。クエリ時間は多対数時間、前処理時間は多項式時間であり、これは従来の c = Ω(√d) の要件を克服し、大規模で高エントロピーなデータセットに対して著しく効率を向上させる。次元削減を経由して問題を低次元化し、max-l2 を用いた最近傍探索プリミティブを活用することで達成された。

ABSTRACT

In this paper, we report progress on answering the open problem presented by Pagh [11], who considered the near neighbor search without false negatives for the Hamming distance. We show new data structures for solving the c-approximate near neighbors problem without false negatives for Euclidean high dimensional space \mathcal{R}^d. These data structures work for any c = \omega(\sqrt{\log{\log{n}}}), where n is the number of points in the input set, with poly-logarithmic query time and polynomial pre-processing time. This improves over the known algorithms, which require c to be \Omega(\sqrt{d}). This improvement is obtained by applying a sequence of reductions, which are interesting on their own. First, we reduce the problem to d instances of dimension logarithmic in n. Next, these instances are reduced to a number of c-approximate near neighbor search without false negatives instances in \big(\Rspace^k\big)^L space equipped with metric m(x,y) = \max_{1 \le i \leL}(\dist{x_i - y_i}_2).

研究の動機と目的

  • c > √log log n に対して、高次元 l2 空間における偽陰性のない c-近似最近傍探索を解くこと。
  • 従来の c = Ω(√d) の制限を克服し、高次元においても実行可能であるようにすること。
  • 多対数時間のクエリ時間と多項式時間の前処理時間を有するデータ構造を設計すること。
  • 次元削減技術を用いて高次元問題を低次元の部分問題に還元すること。
  • 偽陰性に対する決定的保証を実現し、すべての真の近傍が常に返されるようにすること。

提案手法

  • コロナリー5からの次元削減技術を用いて、元の d 次元問題を O(log n) 次元の d 個の問題に還元する。
  • 各還元された問題を、m(x,y) = max_{1≤i≤L} ||x_i - y_i||_2 という距離関数を用いた max-l2 最近傍問題に変換する。
  • 偽陰性の最小化に注力した、局所性に敏感なハッシュ(LSH)を用いたハッシュベースの還元を繰り返し適用する。
  • w 回の反復を用いた多段階ハッシュ方式を採用し、1点あたり 3^{wL} 個のハッシュを計算することで、効率的な候補フィルタリングを実現する。
  • max-l2_NN プリミティブを用いて各部分問題を、有限の偽陽性確率で解き、その後に正確な距離チェックで候補をフィルタリングする。
  • 前処理時間とクエリ時間のバランスを最適化するため、反復回数 w を最適化し、n にほぼ線形でない依存関係を達成する。

実験結果

リサーチクエスチョン

  • RQ1c > √log log n に対して、高次元 l2 空間における偽陰性のない c-近似最近傍探索を効率的に解くことは可能か?
  • RQ2c に依存する部分を Ω(√d) から o(√d) に低減させつつ、多対数時間のクエリ時間を維持することは可能か?
  • RQ3高次元 l2 問題を、偽陰性の回避が保証された管理可能な部分問題に還元するための還元手法は何か?
  • RQ4max-l2_NN プリミティブを用いて、NNwfn 問題を多対数時間のクエリ時間で効果的に解くことは可能か?
  • RQ5導出された時間計算量は最適か、それ以上に改善可能か?

主な発見

  • クエリ時間は Õ(d² + d n^{o(1)} |P|)、前処理時間は Õ(d²n + d n^{1 + ln 3 / ln(c/μ) + 1/f(n)}) であり、μ = D √(f(n) log log n) である。
  • 本アルゴリズムは、任意の c > √log log n に対して動作し、従来の c = Ω(√d) を要件としていた手法に比べ顕著に改善されている。
  • 次元削減後の部分問題の数は Õ(n^{1/f(n)}) で抑えられ、f(n) がゆっくり増加する限り n に対して多項式より小さい。
  • max-l2_NN をプリミティブとして用いることで、偽陰性の回避を決定的に保証しつつ、効率的なクエリ性能を維持できる。
  • 定数 c に対して、本アルゴリズムのクエリ時間は n に対して非線形であり、前処理時間は n および d に対して多項式のままである。
  • 本フレームワークは一般性を有し、下位のハッシュおよび還元手法を適応させることで、他の距離関数に対しても拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。