QUICK REVIEW

[論文レビュー] Data Structure Lower Bounds for Document Indexing Problems

Peyman Afshani, Jesper Sindahl Nielsen|arXiv (Cornell University)|Jan 1, 2016

Algorithms and Data Compression参考文献 43被引用数 6

ひとこと要約

この論文は、ポインタマシンモデルを用いて、二パターン照会、禁止パターン照会、ワイルドカードパターンインデクシングなどの基本的なドキュメントインデクシングおよびパターンマッチング問題について、タイトで条件のない空間時間下界を確立する。組合せ的構成と測度に基づく議論を活用し、既存のデータ構造がほぼ最適であることを証明する。報告系クエリでは S(n)Q(n) = Ω(n²⁻ᵒ⁽¹⁾)、カウント系クエリでは S(n)Q²(n) = Ω(n²/log⁴n) が成り立ち、他のモデルが失敗する状況でもポインタマシンモデルが高品質な下界を導出できる力を示している。

ABSTRACT

We study data structure problems related to document indexing and pattern matching queries and our main contribution is to show that the pointer machine model of computation can be extremely useful in proving high and unconditional lower bounds that cannot be obtained in any other known model of computation with the current techniques. Often our lower bounds match the known space-query time trade-off curve and in fact for all the problems considered, there is a very good and reasonable match between our lower bounds and the known upper bounds, at least for some choice of input parameters. The problems that we consider are set intersection queries (both the reporting variant and the semi-group counting variant), indexing a set of documents for two-pattern queries, or forbidden-pattern queries, or queries with wild-cards, and indexing an input set of gapped-patterns (or two-patterns) to find those matching a document given at the query time.

研究の動機と目的

既存の条件付き下界が不十分な分野において、ドキュメントインデクシングおよびパターンマッチングのデータ構造に対する強力で条件のない下界を確立すること。
ポインタマシンモデルが、既知の上界と一致する高品質でタイトな下界を導出できる優位性を示すこと。
二パターン照会、禁止パターン照会、ワイルドカードパターンインデクシングなどの問題における既知の上界と理論的限界の間のギャップを埋めること。
一元的な枠組みの中で、集合積集合およびパターンマッチング問題の報告系とカウント系の両方の複雑さを分析すること。
線形空間データ構造の限界を調査し、多くの場合において、サブ線形クエリ時間の実現には超線形空間が必要であることを示すこと。

提案手法

ランダムアクセスに依存しないようにするため、ポインタマシンモデルを用いることで、条件のない下界を導出する。
パターンを離散的点、ドキュメントを範囲として扱い、交差測度をモデル化することで、測度に基づく議論を適用する。
高い確率で成り立つ確率的構成を用いて、2P、FP、2FP、SI 問題の下界を導出する。
先行研究からの定理2を活用し、パrameter t, v, g(n) を介して空間、クエリ時間、交差サイズを関連付ける。
特定の組合せ的性質を持つ困難な入力インスタンスを構築する：例えば、パターン照合の重複が限定され、ドキュメントの交差が制御されているもの。
二項係数の境界と漸近的解析を用いて、空間クエリ時間トレードオフに対するタイトな Ω(n²⁻ᵒ⁽¹⁾) および Ω(n²/log⁴n) の下界を導出する。

実験結果

リサーチクエスチョン

RQ1既知の上界と一致する条件のない下界を、ドキュメントインデクシング問題に対して証明できるか？
RQ23SUM やブール行列乗算のような条件付きモデルに比べ、ポインタマシンモデルはよりタイトで情報量の多い下界を導出できるか？
RQ3サブ線形クエリ時間で2パターン照会をサポートするデータ構造に必要な最小空間は何か？
RQ4ワイルドカード数 κ に応じて、ワイルドカードパターンインデクシング（WCI）の複雑さはどのようにスケーリングされ、κ に依存するタイトな下界を証明できるか？
RQ5パターンマッチング問題の報告系とカウント系の複雑さの間に、分離が存在するか？

主な発見

2P、FP、2FP、および集合積集合（SI）の報告系クエリに関して、クエリ時間 Q(n) + O(P₁ + P₂ + t) を満たす任意のポインタマシンデータ構造は、S(n)Q(n) = Ω(n²⁻ᵒ⁽¹⁾) を満たす。これは、既知の構造がほぼ最適であることを証明する。
クエリ時間が O((nt)¹/²⁻α + t)（α > 0）である場合、空間は Ω(n^(1+6α)/(1+2α)⁻ᵒ⁽¹⁾) 以上である必要があり、これは高速なクエリ時間の実現には超線形空間が必要であることを示している。
半群モデルにおけるカウント系の変種では、S(n)Q²(n) = Ω(n²/log⁴n) が成り立ち、カウントは報告より厳密に簡単であることが示唆される。
κ 個のワイルドカードを含むワイルドカードパターンインデクシング（WCI）に関して、空間の下界は Ω(n / κ^Θ(log Q(n)/κ)^(κ−1)) であり、妥当な仮定のもとで既知の上界と一致する。
ギャップを持つパターン（κ-GPI）の下界は Ω(n^Ω(log₁/²ᵏ n)) であり、稀なパターンであっても κ が増加すると空間が顕著に増加することを示している。
任意のデータ構造が 2P クエリを O((nt)¹/²⁻ε + t) 時間（ε > 0）で答えられる場合、超線形空間を必要とすることが示され、長年の予想が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。