Skip to main content
QUICK REVIEW

[論文レビュー] Approximate Nearest Neighbor for Curves - Simple, Efficient, and Deterministic

Arnold Filtser, Omrit Filtser|arXiv (Cornell University)|Jan 1, 2020
Data Management and Algorithms被引用数 8
ひとこと要約

本稿では、離散Fréchet距離および動的時系列適合距離の下で、曲線に対する近似最近傍探索のための単純で決定的かつ効率的なデータ構造を提示する。入力曲線に基づいて空間を離散化することで、クエリ時間O(md)およびn · O(1/ε)mdの記憶領域を達成し、先行研究よりも指数的に優れている。また、k ≪ mのクエリ曲線長を想定した対称的および非対称的設定を両方サポートする。

ABSTRACT

In the (1+ε,r)-approximate near-neighbor problem for curves (ANNC) under some similarity measure δ, the goal is to construct a data structure for a given set 𝒞 of curves that supports approximate near-neighbor queries: Given a query curve Q, if there exists a curve C ∈ 𝒞 such that δ(Q,C)≤ r, then return a curve C' ∈ 𝒞 with δ(Q,C') ≤ (1+ε)r. There exists an efficient reduction from the (1+ε)-approximate nearest-neighbor problem to ANNC, where in the former problem the answer to a query is a curve C ∈ 𝒞 with δ(Q,C) ≤ (1+ε)⋅δ(Q,C^*), where C^* is the curve of 𝒞 most similar to Q. Given a set 𝒞 of n curves, each consisting of m points in d dimensions, we construct a data structure for ANNC that uses n⋅ O(1/ε)^{md} storage space and has O(md) query time (for a query curve of length m), where the similarity measure between two curves is their discrete Fréchet or dynamic time warping distance. Our method is simple to implement, deterministic, and results in an exponential improvement in both query time and storage space compared to all previous bounds. Further, we also consider the asymmetric version of ANNC, where the length of the query curves is k ≪ m, and obtain essentially the same storage and query bounds as above, except that m is replaced by k. Finally, we apply our method to a version of approximate range counting for curves and achieve similar bounds.

研究の動機と目的

  • 離散Fréchet距離およびℓp,2距離の下で、(1+ε, r)-近似最近傍探索(ANNC)問題を解決すること。
  • 指数的時間または確率的アプローチに依存する既存手法の制限を克服し、部分指数的時間および空間計算量を達成するデータ構造を設計すること。
  • クエリ曲線が入力曲線よりも著しく短い(k ≪ m)非対称設定への拡張を図ること。
  • 同様の効率的境界を維持しながら、曲線に対する近似範囲カウントに応用すること。

提案手法

  • 入力曲線に基づく空間の離散化を用い、すべての可能なクエリを近似する代表的な曲線の小規模な集合を事前に計算する。
  • 各曲線を最近接グリッド点に丸めることで、グリッド上の曲線を格納する辞書(ハッシュテーブルまたはプレフィックスツリー)を構築する。
  • クエリ曲線Qに対して、離散化空間内での丸められたバージョンQ′を計算し、データ構造内においてQ′からの距離が(1+ε)r以内のすべての曲線を取得する。
  • 曲線がQからの距離r以内にあるならば、その丸められたバージョンはQ′からの距離が(1+ε)r以内にあるという事実を活用し、正しさを保証する。
  • 複雑な局所性に敏感なハッシュ関数や確率的射影に依存せず、決定的かつシンプルなアプローチを採用する。
  • ℓp,2距離(DFDおよびDTWを含む)へ一般化可能であり、各グリッドセル内の曲線数を保持することで、範囲カウントをサポートする。

実験結果

リサーチクエスチョン

  • RQ1離散Fréchet距離の下で、部分指数的クエリ時間および空間計算量を達成する決定的で効率的なANNCデータ構造を構築可能か?
  • RQ2クエリ曲線長k ≪ mの非対称設定において、ANNC問題を効率的に解く方法は何か?
  • RQ3同じアプローチを、同様の効率的境界を維持する近似範囲カウントに拡張可能か?
  • RQ4この設定における近似要因、記憶領域、クエリ時間のトレードオフは何か?また、近似的に最適化可能か?

主な発見

  • 提案されたデータ構造は、離散Fréchet距離およびℓp,2距離の下で、O(md)のクエリ時間とn · O(1/ε)mdの記憶領域を達成し、先行手法に比べて指数的改善を実現する。
  • クエリ曲線長k ≪ mの非対称設定では、クエリ時間O(kd)、記憶領域n · O(1/ε)kdであり、指数部においてmがkに置き換えられる。
  • 決定的かつ実装が簡単であり、先行研究で用いられる複雑な確率的またはハッシュベースの構築手法に依存しない。
  • 各グリッドセル内の曲線数を保持することで、空間O(n · (1/ε)^m(d+1))、クエリ時間O(md log(nmd/ε))の近似範囲カウントをサポートする。この性能はANNCソリューションと同等である。
  • 対数因子を除けば最適であり、Har-PeledとKumar(2011)の空間境界に一致しつつ、mdに対して線形クエリ時間を持つ。
  • 元の曲線から(1+ε)r以内に最小頂点数を持つ曲線を計算する曲線簡略化アルゴリズムを提供し、実行時間はO(d·m log m / ε + m·ε^{-4.5} log(1/ε))である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。