QUICK REVIEW

[论文解读] Boolean Tensor Decomposition for Conjunctive Queries with Negation

Mahmoud Abo Khamis, Hung Q. Ngo|arXiv (Cornell University)|Dec 20, 2017

Tensor decomposition and applications参考文献 41被引用 6

一句话总结

本文提出了一种新颖的方法，用于在有界度数关系上评估带有否定的连接查询，通过将这些查询重写为等价的带有非全等（NAE）谓词的查询，然后利用广义着色编码技术对这些 NAE 谓词进行布尔张量分解。该方法实现了与最佳已知正查询算法（如 InsideOut 和 PANDA）相当的数据复杂度，查询复杂度在结构化否定关系下为多项式时间，仅在一般情况下为指数时间，显著优于以往针对此类查询的方法。

ABSTRACT

We propose an algorithm for answering conjunctive queries with negation, where the negated relations have bounded degree. Its data complexity matches that of the best known algorithms for the positive subquery of the input query and is expressed in terms of the fractional hypertree width and the submodular width. The query complexity depends on the structure of the negated subquery; in general it is exponential in the number of join variables occurring in negated relations yet it becomes polynomial for several classes of queries. This algorithm relies on several contributions. We show how to rewrite queries with negation on bounded-degree relations into equivalent conjunctive queries with not-all-equal (NAE) predicates, which are a multi-dimensional analog of disequality (not-equal). We then generalize the known color-coding technique to conjunctions of NAE predicates and explain it via a Boolean tensor decomposition of conjunctions of NAE predicates. This decomposition can be achieved via a probabilistic construction that can be derandomized efficiently.

研究动机与目标

为解决现有带有否定的连接查询算法在否定关系具有有界度数时的高联合复杂度问题。
开发一种方法，使其数据复杂度与最先进的正查询评估算法（如 InsideOut 和 PANDA）相当。
通过利用否定关系的结构特性，特别是通过 NAE 谓词和张量分解，降低否定连接查询的查询复杂度。
提供一个通用框架，将着色编码推广至任意 NAE 谓词的合取，实现高效且去随机化的评估。

提出的方法

将任何在有界度数关系上的带有否定的连接查询重写为带有非全等（NAE）谓词的连接查询的析取式。
通过概率构造，将着色编码技术从不等式团推广至任意 NAE 谓词的合取。
将 NAE 谓词的合取表示为布尔张量分解，通过动态规划实现高效查询评估。
利用基于 Gilbert-Varshamov 边界上的线性纠错码的编码级联技术，对概率构造进行去随机化，实现线性时间构造。
将该分解与现有查询评估算法（InsideOut 和 PANDA）集成，继承其低数据复杂度界。
利用所得框架，实现查询复杂度依赖于否定关系结构的多项式时间表现，尤其当否定关系的超图具有有利性质时。

实验结果

研究问题

RQ1能否在有界度数关系上评估带有否定的连接查询，使其数据复杂度与 InsideOut 和 PANDA 等正查询评估算法相当？
RQ2如何将着色编码技术从不等式团推广至处理任意 NAE 谓词的合取？
RQ3布尔张量分解在实现否定连接查询高效评估中起到什么作用？如何高效构造并去随机化该分解？
RQ4能否将查询复杂度降低至结构化否定关系类别的多项式时间？其行为由哪些参数决定？
RQ5是否可以通过使颜色数量对查询结构敏感，实现比以往工作更精细的复杂度分析？

主要发现

所提方法实现了与 InsideOut 和 PANDA 相当的数据复杂度，使用 InsideOut 时运行时间界为 O(f(Q) · log N · (N^{fhtw_F(body)} + |output|))，使用 PANDA 时为 O(f(Q) · (poly(log N) · N^{subw_F(body)} + log N · |output|))。
当否定关系的超图具有有利结构时，查询复杂度在变量数量上为多项式时间，仅在最坏情况下为指数时间。
该方法提出了一种 NAE 谓词合取的新型布尔张量分解，从而支持广义着色编码技术。
该张量分解的概率构造可通过编码级联方法高效去随机化，得到大小为 O(k² log N) 的 (N, k², k)-完美哈希族，优于以往的 O(k⁴ log N) 构造。
该框架可扩展至带有否定关系的连接查询的并集，并可整合基于子模宽度的度数感知版本，以在正关系上提升性能。
该方法无法推广至实数上的和-积半环，因为其计数版本在诱导的 k-路径查询上是 #W[1]-难的，存在固有的计算困难。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。