Skip to main content
QUICK REVIEW

[论文解读] Box Covers and Domain Orderings for Beyond Worst-Case Join Processing

Kaleb Alway, Eric Blais|arXiv (Cornell University)|Sep 26, 2019
Advanced Graph Theory Research参考文献 26被引用 5
一句话总结

本文提出 GAMB,一种近线性时间算法,可生成证书大小在最优值的多对数因子以内的方框覆盖;以及 ADORA,一种用于最小化方框覆盖和证书大小的领域排序近似算法。结合 Tetris 算法后,所得的 TetrisReordered 算法在无限查询族上实现了无界优于最坏情况的性能,显著改进了先前的界限,通过利用最优领域排序和紧凑的方框覆盖实现。

ABSTRACT

Recent beyond worst-case optimal join algorithms Minesweeper and its generalization Tetris have brought the theory of indexing and join processing together by developing a geometric framework for joins. These algorithms take as input an index $\mathcal{B}$, referred to as a box cover, that stores output gaps that can be inferred from traditional indexes, such as B+ trees or tries, on the input relations. The performances of these algorithms highly depend on the certificate of $\mathcal{B}$, which is the smallest subset of gaps in $\mathcal{B}$ whose union covers all of the gaps in the output space of a query $Q$. We study how to generate box covers that contain small size certificates to guarantee efficient runtimes for these algorithms. First, given a query $Q$ over a set of relations of size $N$ and a fixed set of domain orderings for the attributes, we give a $ ilde{O}(N)$-time algorithm called GAMB which generates a box cover for $Q$ that is guaranteed to contain the smallest size certificate across any box cover for $Q$. Second, we show that finding a domain ordering to minimize the box cover size and certificate is NP-hard through a reduction from the 2 consecutive block minimization problem on boolean matrices. Our third contribution is a $ ilde{O}(N)$-time approximation algorithm called ADORA to compute domain orderings, under which one can compute a box cover of size $ ilde{O}(K^r)$, where $K$ is the minimum box cover for $Q$ under any domain ordering and $r$ is the maximum arity of any relation. This guarantees certificates of size $ ilde{O}(K^r)$. We combine ADORA and GAMB with Tetris to form a new algorithm we call TetrisReordered, which provides several new beyond worst-case bounds. On infinite families of queries, TetrisReordered's runtimes are unboundedly better than the bounds stated in prior work.

研究动机与目标

  • 开发一种高效算法,为任意连接查询生成证书大小接近理论最小值的方框覆盖。
  • 研究领域排序对方框覆盖和证书大小的影响,并寻找能最小化这些大小的排序方式。
  • 设计一种实用的近线性时间算法,用于计算能产生紧凑方框覆盖和证书的领域排序。
  • 将这些技术与 Tetris 算法结合,以获得优于最坏情况的运行时间界限。

提出的方法

  • 提出 GAMB,一种 eO(N)-时间算法,从输入关系中计算出所有最大双射间隙方框,以形成全局优良的方框覆盖。
  • 证明 GAMB 生成的方框覆盖的证书大小在所有方框覆盖中最小可能证书大小的 eO(1) 因子之内。
  • 引入 ADORA,一种 eO(N)-时间的领域排序近似算法,用于在任意排序下最小化方框覆盖大小和证书大小。
  • 证明在 ADORA 的排序下,方框覆盖大小为 eO(Kr),证书大小为 eO(Kr),其中 K 为任意排序下的最小方框覆盖大小,r 为最大关系元数。
  • 将 ADORA、GAMB 和 Tetris 结合为 TetrisReordered,一种新算法,利用最优领域排序和紧凑证书以提升性能。
  • 通过从布尔矩阵上的 2-连续块最小化问题进行归约,证明在领域排序下最小化方框覆盖和证书大小是 NP-难问题。

实验结果

研究问题

  • RQ1能否在近线性时间内生成一个方框覆盖,其证书大小在最优大小的多对数因子之内?
  • RQ2寻找能最小化方框覆盖和证书大小的最优领域排序是否为 NP-难问题?
  • RQ3能否设计一种高效的近似算法,用于计算能产生小方框覆盖和证书的领域排序?
  • RQ4通过重排领域并使用最优方框覆盖,在优于最坏情况的连接算法中能实现多大程度的性能提升?
  • RQ5当将最优领域排序与 Tetris 等先进连接算法结合时,性能提升的理论极限是什么?

主要发现

  • GAMB 在 eO(N) 时间内生成一个方框覆盖,其证书大小为 eO(C□(Q)),其中 C□(Q) 是所有可能方框覆盖中最小的证书大小。
  • 通过从布尔矩阵上的 2-连续块最小化问题归约,证明了寻找能最小化方框覆盖和证书大小的最优领域排序问题是 NP-难问题。
  • ADORA 在 eO(N) 时间内计算出一个领域排序,使得生成的方框覆盖大小为 eO(Kr),证书大小为 eO(Kr),其中 K 为任意排序下的最小方框覆盖大小,r 为最大关系元数。
  • TetrisReordered 通过结合 ADORA、GAMB 和 Tetris,实现了在无限查询族上的运行时间显著优于先前 Tetris 算法的界限。
  • 随着构造的查询族中填充位数的增加,TetrisReordered 与先前 Tetris 版本之间的性能差距可无限增大,证明了最优领域排序在理论和实践上的重要性。
  • 本文表明,最小证书问题的双射方框版本在近似难度方面仍为开放问题,且一般方框与双射方框在复杂性上可能存在显著差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。