[论文解读] Data Structure Lower Bounds for Document Indexing Problems
本文通过指针机模型,为文档索引和模式匹配的基础问题——如双模式查询、禁止模式查询和通配符模式索引——建立了紧致的、无条件的空间-时间下界。通过组合构造和基于度量的论证,证明了已知数据结构几乎是最优的,其中报告查询满足 S(n)Q(n) = Ω(n²⁻ᵒ⁽¹⁾),计数变体满足 S(n)Q²(n) = Ω(n²/log⁴n),展示了指针机模型在其他模型失效时推导高质量下界的能力。
We study data structure problems related to document indexing and pattern matching queries and our main contribution is to show that the pointer machine model of computation can be extremely useful in proving high and unconditional lower bounds that cannot be obtained in any other known model of computation with the current techniques. Often our lower bounds match the known space-query time trade-off curve and in fact for all the problems considered, there is a very good and reasonable match between our lower bounds and the known upper bounds, at least for some choice of input parameters. The problems that we consider are set intersection queries (both the reporting variant and the semi-group counting variant), indexing a set of documents for two-pattern queries, or forbidden-pattern queries, or queries with wild-cards, and indexing an input set of gapped-patterns (or two-patterns) to find those matching a document given at the query time.
研究动机与目标
- 为文档索引和模式匹配数据结构建立强无条件下界,尤其在先前的条件性下界不足时。
- 展示指针机模型在推导高质量、紧致下界方面的优越性,这些下界与已知上界相匹配。
- 弥合双模式查询、禁止模式查询和通配符模式索引等问題的已知上界与理论极限之间的差距。
- 在统一框架下分析集合交集和模式匹配问题的报告与计数变体的复杂度。
- 探索线性空间数据结构的极限,并表明在许多情况下,亚线性查询时间需要超线性空间。
提出的方法
- 使用指针机模型以避免依赖随机访问,从而实现无条件的下界。
- 应用基于度量的论证,将模式视为离散点,文档视为区间,建模交集度量。
- 采用具有高概率界别的随机构造,推导双模式查询(2P)、禁止模式查询(FP)、双禁止模式查询(2FP)和集合交集(SI)问题的下界。
- 利用先前工作中提出的定理2,通过参数 t、v 和 g(n) 将空间、查询时间和交集大小关联起来。
- 构建具有特定组合性质的困难输入实例:例如,模式匹配中的重叠受限和文档交集受控。
- 使用二项式系数界和渐近分析,推导出空间-查询时间权衡的紧致 Ω(n²⁻ᵒ⁽¹⁾) 和 Ω(n²/log⁴n) 下界。
实验结果
研究问题
- RQ1我们能否为文档索引问题证明与已知上界相匹配的无条件空间-时间下界?
- RQ2指针机模型是否能够产生比 3SUM 或布尔矩阵乘法等条件性模型更紧致、更具信息量的下界?
- RQ3支持双模式查询且查询时间亚线性的数据结构所需的最小空间是多少?
- RQ4通配符模式索引(WCI)的复杂度如何随通配符数量 κ 变化?我们能否证明依赖于 κ 的紧致下界?
- RQ5我们能否在模式匹配问题的报告与计数变体之间建立复杂度上的分离?
主要发现
- 对于双模式查询(2P)、禁止模式查询(FP)、双禁止模式查询(2FP)和集合交集(SI)的报告查询,任何指针机数据结构若查询时间为 Q(n) + O(P₁ + P₂ + t),则必须满足 S(n)Q(n) = Ω(n²⁻ᵒ⁽¹⁾),证明了已知结构的近乎最优性。
- 若查询时间为 O((nt)¹/²⁻α + t)(其中 α > 0),则空间必须为 Ω(n^(1+6α)/(1+2α)⁻ᵒ⁽¹⁾),表明更快的查询时间需要超线性空间。
- 在半群模型中,计数变体满足 S(n)Q²(n) = Ω(n²/log⁴n),表明计数比报告更简单。
- 对于具有 κ 个通配符的通配符模式索引(WCI),空间下界为 Ω(n / κ^Θ(log Q(n)/κ)^(κ−1)),在合理假设下与已知上界匹配。
- 对于具有间隔的模式(κ-GPI),下界为 Ω(n^Ω(log₁/²ᵏ n)),表明即使模式稀疏,空间仍随 κ 显著增长。
- 本文表明,任何在 O((nt)¹/²⁻ε + t) 时间内回答 2P 查询(其中 ε > 0)的数据结构都必须使用超线性空间,从而证实了一个长期存在的猜想。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。