Skip to main content
QUICK REVIEW

[论文解读] Approximate Nearest Neighbor for Curves - Simple, Efficient, and Deterministic

Arnold Filtser, Omrit Filtser|arXiv (Cornell University)|Jan 1, 2020
Data Management and Algorithms被引用 8
一句话总结

本文提出了一种简单、确定性且高效的曲线近似最近邻搜索数据结构,适用于离散Fréchet距离和动态时间规整距离。通过基于输入曲线的离散化空间,实现了O(md)的查询时间与n · O(1/ε)md的存储空间——相比先前工作呈指数级提升——同时支持对称与非对称设置,且查询曲线长度k ≪ m。

ABSTRACT

In the (1+ε,r)-approximate near-neighbor problem for curves (ANNC) under some similarity measure δ, the goal is to construct a data structure for a given set 𝒞 of curves that supports approximate near-neighbor queries: Given a query curve Q, if there exists a curve C ∈ 𝒞 such that δ(Q,C)≤ r, then return a curve C' ∈ 𝒞 with δ(Q,C') ≤ (1+ε)r. There exists an efficient reduction from the (1+ε)-approximate nearest-neighbor problem to ANNC, where in the former problem the answer to a query is a curve C ∈ 𝒞 with δ(Q,C) ≤ (1+ε)⋅δ(Q,C^*), where C^* is the curve of 𝒞 most similar to Q. Given a set 𝒞 of n curves, each consisting of m points in d dimensions, we construct a data structure for ANNC that uses n⋅ O(1/ε)^{md} storage space and has O(md) query time (for a query curve of length m), where the similarity measure between two curves is their discrete Fréchet or dynamic time warping distance. Our method is simple to implement, deterministic, and results in an exponential improvement in both query time and storage space compared to all previous bounds. Further, we also consider the asymmetric version of ANNC, where the length of the query curves is k ≪ m, and obtain essentially the same storage and query bounds as above, except that m is replaced by k. Finally, we apply our method to a version of approximate range counting for curves and achieve similar bounds.

研究动机与目标

  • 解决在离散Fréchet距离和ℓp,2距离下,(1+ε, r)-近似最近邻曲线(ANNC)问题。
  • 设计一种数据结构,实现亚指数级的查询时间与空间复杂度,克服先前基于随机化或指数时间方法的局限性。
  • 将解决方案扩展至非对称设置,即查询曲线远短于输入曲线(k ≪ m)的情形。
  • 将该方法应用于曲线的近似范围计数,同时保持相似的效率界限。

提出的方法

  • 该方法基于输入曲线进行空间离散化,预先计算一组能近似所有可能查询的代表性曲线。
  • 构建一个字典(哈希表或前缀树),存储来自离散化网格的曲线,其中每条曲线被四舍五入到最近的网格点。
  • 对于查询曲线Q,计算其在离散化空间中的四舍五入版本Q′,并检索数据结构中所有与Q′距离在(1+ε)r以内的曲线。
  • 该方法利用了如下事实:若某条曲线与Q的距离在r以内,则其四舍五入后的版本与Q′的距离必在(1+ε)r以内,从而保证正确性。
  • 该方法为确定性方法,避免依赖复杂的局部敏感哈希或随机投影。
  • 该方法可推广至ℓp,2距离(包括DFD和DTW),并通过在每个网格单元中维护曲线数量,支持范围计数。

实验结果

研究问题

  • RQ1能否在离散Fréchet距离下,构造一种具有亚指数级查询时间与空间复杂度的确定性高效ANNC数据结构?
  • RQ2在查询曲线长度k ≪ m的非对称设置下,ANNC问题能否实现高效求解?
  • RQ3该方法能否扩展至曲线的近似范围计数,且保持相似的效率界限?
  • RQ4在此设置下,近似因子、存储空间与查询时间之间的权衡如何?能否优化至接近最优?

主要发现

  • 所提出的数据结构在离散Fréchet距离和ℓp,2距离下,实现了O(md)的查询时间与n · O(1/ε)md的存储空间,相比先前方法呈指数级改进。
  • 在查询曲线长度k ≪ m的非对称设置下,其界限为O(kd)的查询时间与n · O(1/ε)kd的存储空间,其中m在指数中被替换为k。
  • 该方法为确定性方法,实现简单,避免了先前工作中复杂的随机化或基于哈希的构造。
  • 该方法支持近似范围计数,空间复杂度为O(n · (1/ε)^m(d+1)),查询时间为O(md log(nmd/ε)),与ANNC解决方案的效率一致。
  • 该算法在对数因子范围内达到最优,其空间复杂度与Har-Peled和Kumar(2011)的下界一致,同时实现md的线性查询时间。
  • 提供了一种曲线简化算法,可在O(d·m log m / ε + m·ε^{-4.5} log(1/ε))时间内计算出与原曲线距离在(1+ε)r以内的顶点最少的曲线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。