[论文解读] Fast Preprocessing for Optimal Orthogonal Range Reporting and Range Successor with Applications to Text Indexing
本论文提出了首个在二维正交范围报告、范围后继和已排序范围报告问题上实现最优查询时间(O(lg lg n + k) 或 O(lg lg n))的数据结构,且在词 RAM 模型下支持 O(n√lg n) 时间的构建过程。该方法结合了分层分解与波特尔树,并针对三边形和正交报告设计了专用结构,从而实现几何与文本索引应用的快速预处理。
Under the word RAM model, we design three data structures that can be constructed in $O(n\sqrt{\lg n})$ time over $n$ points in an $n imes n$ grid. The first data structure is an $O(n\lg^ε n)$-word structure supporting orthogonal range reporting in $O(\lg\lg n+k)$ time, where $k$ denotes output size and $ε$ is an arbitrarily small constant. The second is an $O(n\lg\lg n)$-word structure supporting orthogonal range successor in $O(\lg\lg n)$ time, while the third is an $O(n\lg^ε n)$-word structure supporting sorted range reporting in $O(\lg\lg n+k)$ time. The query times of these data structures are optimal when the space costs must be within $O(n\ polylog\ n)$ words. Their exact space bounds match those of the best known results achieving the same query times, and the $O(n\sqrt{\lg n})$ construction time beats the previous bounds on preprocessing. Previously, among 2d range search structures, only the orthogonal range counting structure of Chan and Pǎtraşcu (SODA 2010) and the linear space, $O(\lg^ε n)$ query time structure for orthogonal range successor by Belazzougui and Puglisi (SODA 2016) can be built in the same $O(n\sqrt{\lg n})$ time. Hence our work is the first that achieve the same preprocessing time for optimal orthogonal range reporting and range successor. We also apply our results to improve the construction time of text indexes.
研究动机与目标
- 设计用于二维正交范围报告、范围后继和已排序范围报告的数据结构,实现最优查询时间。
- 实现这些结构的构建时间达到 O(n√lg n),与类似问题中已知最快的预处理时间相匹配。
- 弥合几何数据结构中最优查询性能与快速预处理之间的差距。
- 将结果应用于改进文本索引的构建时间,特别是在紧凑数据结构中的应用。
提出的方法
- 构建一个 2√lg n-叉波特尔树,并采用球体继承机制,以支持点序列上的高效秩(rank)与选择(select)操作。
- 对于波特尔树中的每个内部节点,维护两个辅助结构:TSds(u) 用于三边形已排序报告,RSds(u) 用于正交已排序报告。
- 利用波特尔树将查询范围划分为三部分:左子树、中间部分和右子树,从而支持分治查询处理。
- 通过 TSds(u) 查询左右子树,以在子范围内按 y 坐标顺序报告点;通过 RSds(u) 查询中间部分,以覆盖完整范围。
- 使用三路归并算法在 O(occ) 时间内合并三个已排序的输出结果,其中 occ 为报告点的数量。
- 利用波特尔树的结构特性与分层分解机制,确保所有节点的总预处理时间为 O(n√lg n)。
实验结果
研究问题
- RQ1我们能否在 O(n√lg n) 预处理时间内,实现二维正交范围报告的最优查询时间 O(lg lg n + k)?
- RQ2是否可能在 O(n√lg n) 预处理时间内,实现正交范围后继操作的 O(lg lg n) 查询时间?
- RQ3能否设计一种用于已排序范围报告的数据结构,实现 O(lg lg n + k) 的查询时间与 O(n√lg n) 的预处理时间?
- RQ4这些快速预处理结构能否用于改进文本索引的构建时间?
主要发现
- 本文提出一种 O(n lgϵ n)-word 的数据结构,用于正交范围报告,支持 O(lg lg n + k) 的查询时间,且可在 O(n√lg n) 时间内构建。
- 设计了一种 O(n lg lg n)-word 的结构用于正交范围后继,支持 O(lg lg n) 的查询时间,且预处理时间为 O(n√lg n)。
- 设计了一种 O(n lg1+ϵ n)-word 的结构用于已排序范围报告,支持 O(lg lg n + occ) 的查询时间,且预处理时间为 O(n√lg n)。
- O(n√lg n) 的构建时间是首次与这些问题中已知最优查询时间的最紧界相匹配。
- 空间复杂度与相同查询时间下的最优结果一致,使该解决方案在空间上达到最优。
- 该成果被应用于改进文本索引的构建,特别是在基于波特尔树的紧凑索引中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。