Skip to main content
QUICK REVIEW

[论文解读] Optimal hashing-based time-space trade-offs for approximate near neighbors

Alexandr Andoni, Thijs Laarhoven|arXiv (Cornell University)|Jan 16, 2017
Advanced Image and Video Retrieval Techniques被引用 60
一句话总结

本文提出了首个基于哈希的索引结构,在d维欧几里得空间中,对所有近似因子c > 1,实现了次线性查询时间与近线性空间的结合。通过新颖地结合球面LSH与数据相关哈希,该工作建立了紧致的时间-空间权衡,实现了空间为n^{1+o(1)}时的最优ρq = 0.43,并在所有空间范围内匹配或超越了先前的界限。

ABSTRACT

We show tight upper and lower bounds for time-space trade-offs for the c-approximate Near Neighbor Search problem. For the d-dimensional Euclidean space and n-point datasets, we develop a data structure with space n1+ρu+o(1) + O(dn) and query time nρq+o(1) + dno(1) for every ρu, ρq ≥ 0 with:[EQUATION]In particular, for the approximation c = 2 we get:• Space n1.77 ... and query time no(1), significantly improving upon known data structures that support very fast queries [IM98, KOR00];• Space n1.14... and query time n0.14..., matching the optimal data-dependent Locality-Sensitive Hashing (LSH) from [AR15];• Space n1+o(1) and query time n0.43..., making significant progress in the regime of near-linear space, which is arguably of the most interest for practice [LJW+07].This is the first data structure that achieves sublinear query time and near-linear space for every approximation factor c > 1, improving upon [Kap15]. The data structure is a culmination of a long line of work on the problem for all space regimes; it builds on Spherical Locality-Sensitive Filtering [BDGL16] and data-dependent hashing [AINR14, AR15].Our matching lower bounds are of two types: conditional and unconditional. First, we prove tightness of the whole trade-off (0.1) in a restricted model of computation, which captures all known hashing-based approaches. We then show unconditional cell-probe lower bounds for one and two probes that match (0.1) for ρq = 0, improving upon the best known lower bounds from [PTW10]. In particular, this is the first space lower bound (for any static data structure) for two probes which is not polynomially smaller than the one-probe bound. To show the result for two probes, we establish and exploit a connection to locally-decodable codes.

研究动机与目标

  • 填补高维欧几里得空间中c-近似最近邻搜索的时间-空间权衡中的空白。
  • 设计一种数据结构,使所有近似因子c > 1下均能实现次线性查询时间与近线性空间。
  • 在各种计算模型下,为基于哈希的方法建立紧致的上下界。
  • 统一并改进先前在数据相关哈希与球面LSH过滤方面的研究。
  • 证明无条件的单元探测下界,适用于单探针与双探针,且与上界权衡相匹配。

提出的方法

  • 设计一种结合球面局部敏感过滤与数据相关哈希的数据结构,以实现最优的时间-空间权衡。
  • 整合[AINR14, AR15]与[BDGL16]中的技术,构建具有可控ρu与ρq参数的哈希方案。
  • 推导出对所有c > 1成立的权衡关系式ρq ≤ (c² - 1)ρu / (c² + 2c - 1),该关系控制时间-空间效率。
  • 在一种捕捉所有已知基于哈希方法的受限模型中,证明该权衡关系的条件紧致性。
  • 通过与局部可解码码的联系,建立无条件的单元探测下界,适用于单探针与双探针。
  • 利用与局部可解码码的联系,证明双探针下界不会比单探针下界小多项式级别。

实验结果

研究问题

  • RQ1基于哈希的数据结构能否对所有c > 1实现次线性查询时间与近线性空间?
  • RQ2在d维欧几里得空间中,c-近似最近邻搜索的最优时间-空间权衡是什么?
  • RQ3所提出的上界是否紧致?能否被无条件的下界所匹配?
  • RQ4双探针方案的无条件下界是否可与单探针方案的下界同样强?
  • RQ5局部可解码码在建立双探针数据结构强下界中起什么作用?

主要发现

  • 当c = 2时,该数据结构实现了空间n^{1.77...}与查询时间n^{o(1)},显著优于先前的快速查询结构。
  • 当c = 2时,其空间为n^{1.14...},查询时间为n^{0.14...},与[AR15]中提出的最优数据相关LSH相匹配。
  • 在近线性空间n^{1+o(1)}下,查询时间为n^{0.43...},代表了实际应用场景中的重大进展。
  • 本文首次证明了双探针无条件单元探测下界,且其不会比单探针下界小多项式级别。
  • 在受限模型中,证明了权衡关系ρq ≤ (c² - 1)ρu / (c² + 2c - 1)的紧致性,该模型捕捉了所有已知的基于哈希的方法。
  • 建立并利用了与局部可解码码的新颖联系,以证明双探针方案的强下界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。