Skip to main content
QUICK REVIEW

[論文レビュー] Optimal hashing-based time-space trade-offs for approximate near neighbors

Alexandr Andoni, Thijs Laarhoven|arXiv (Cornell University)|Jan 16, 2017
Advanced Image and Video Retrieval Techniques被引用数 60
ひとこと要約

本論文は、d次元ユークリッド空間におけるすべての近似要因 c > 1 に対して、近線形空間でサブ線形クエリ時間を持つ、最初のハッシングに基づくデータ構造を提示する。球面LSHとデータに依存するハッシングの新規な組み合わせにより、タイトな時間-空間トレードオフを確立し、空間 n^{1+o(1)} の場合に最適な ρq = 0.43 を達成するとともに、すべての空間領域で先行研究の境界を一致または改善する。

ABSTRACT

We show tight upper and lower bounds for time-space trade-offs for the c-approximate Near Neighbor Search problem. For the d-dimensional Euclidean space and n-point datasets, we develop a data structure with space n1+ρu+o(1) + O(dn) and query time nρq+o(1) + dno(1) for every ρu, ρq ≥ 0 with:[EQUATION]In particular, for the approximation c = 2 we get:• Space n1.77 ... and query time no(1), significantly improving upon known data structures that support very fast queries [IM98, KOR00];• Space n1.14... and query time n0.14..., matching the optimal data-dependent Locality-Sensitive Hashing (LSH) from [AR15];• Space n1+o(1) and query time n0.43..., making significant progress in the regime of near-linear space, which is arguably of the most interest for practice [LJW+07].This is the first data structure that achieves sublinear query time and near-linear space for every approximation factor c > 1, improving upon [Kap15]. The data structure is a culmination of a long line of work on the problem for all space regimes; it builds on Spherical Locality-Sensitive Filtering [BDGL16] and data-dependent hashing [AINR14, AR15].Our matching lower bounds are of two types: conditional and unconditional. First, we prove tightness of the whole trade-off (0.1) in a restricted model of computation, which captures all known hashing-based approaches. We then show unconditional cell-probe lower bounds for one and two probes that match (0.1) for ρq = 0, improving upon the best known lower bounds from [PTW10]. In particular, this is the first space lower bound (for any static data structure) for two probes which is not polynomially smaller than the one-probe bound. To show the result for two probes, we establish and exploit a connection to locally-decodable codes.

研究の動機と目的

  • 高次元ユークリッド空間における c-近似近隣探索の時間-空間トレードオフのギャップを埋めること。
  • すべての近似要因 c > 1 に対して、サブ線形クエリ時間と近線形空間を達成するデータ構造を開発すること。
  • さまざまな計算モデル下でのハッシングに基づくアプローチのタイトな上界および下界を確立すること。
  • データに依存するハッシングと球面LSHフィルタリングの先行研究を統合し、改善すること。
  • 1プローブおよび2プローブに対する非条件的セルプローブ下界を証明し、上界のトレードオフと一致させること。

提案手法

  • 球面局所性に敏感なフィルタリングとデータに依存するハッシングを組み合わせたデータ構造を設計し、最適な時間-空間トレードオフを達成する。
  • [AINR14, AR15] および [BDGL16] の技術を統合し、制御された ρu および ρq パrameterを持つハッシングスキームを構築する。
  • すべての c > 1 に対して、時間-空間効率を支配するトレードオフ関係式 ρq ≤ (c² - 1)ρu / (c² + 2c - 1) を導出する。
  • すべての既知のハッシングベースの手法を捉える制限付きモデルにおいて、このトレードオフの条件的タイトネスを証明する。
  • 局所的に可読性のあるコードとの接続を用いて、1プローブおよび2プローブに対する非条件的セルプローブ下界を確立する。
  • 局所的に可読性のあるコードとの接続を活用し、2プローブ下界が1プローブ下界よりも多項式的に小さくならないことを証明する。

実験結果

リサーチクエスチョン

  • RQ1ハッシングに基づくデータ構造は、すべての c > 1 に対して、サブ線形クエリ時間と近線形空間を達成できるか?
  • RQ2d次元ユークリッド空間における c-近位近隣探索の最適な時間-空間トレードオフは何か?
  • RQ3提案された上界はタイトであり、非条件的下界によって達成可能か?
  • RQ42プローブスキームの非条件的下界は、1プローブスキームのそれと同程度に強いものか?
  • RQ5局所的に可読性のあるコードは、2プローブデータ構造に対する強い下界を確立するために果たす役割は何か?

主な発見

  • c = 2 の場合、データ構造は空間 n^{1.77...} とクエリ時間 n^{o(1)} を達成し、先行の高速クエリ構造を著しく改善する。
  • c = 2 の場合、空間 n^{1.14...} とクエリ時間 n^{0.14...} を達成し、[AR15] で得られた最適なデータに依存するLSHと一致する。
  • 近線形空間 n^{1+o(1)} の場合、クエリ時間は n^{0.43...} となり、実用的領域における大きな前進を示す。
  • 本論文は、1プローブ下界よりも多項式的に小さくない2プローブに対する非条件的セルプローブ下界を初めて証明した。
  • 制限付きモデルにおいて、トレードオフ ρq ≤ (c² - 1)ρu / (c² + 2c - 1) がタイトであることが示され、すべての既知のハッシングベースの手法を捉える。
  • 局所的に可読性のあるコードとの新しい接続を確立し、それを活用して2プローブスキームに対する強い下界を証明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。