Skip to main content
QUICK REVIEW

[论文解读] Diversity of Answers to Conjunctive Queries

Timo Camillo Merkl, Reinhard Pichler|arXiv (Cornell University)|Jan 1, 2023
Logic, Reasoning, and Knowledge被引用 2
一句话总结

本文引入并分析了多样联合查询(Diverse-Conjunctive Query, Diverse-CQ)问题,其目标是从联合查询的解集中选择k个不同的答案,使得这些答案的总体多样性——通过汉明距离度量,并由一个多项式时间可计算的函数聚合——达到或超过阈值d。主要贡献在于对Diverse-CQ在数据复杂度、查询复杂度和联合复杂度下的全面复杂度分类,证明了无环和有界树宽CQ属于FPT和XP类,而对包含否定或有界子模宽度的更表达性强的CQ类则揭示了其不可解性。

ABSTRACT

Enumeration problems aim at outputting, without repetition, the set of solutions to a given problem instance. However, outputting the entire solution set may be prohibitively expensive if it is too big. In this case, outputting a small, sufficiently diverse subset of the solutions would be preferable. This leads to the Diverse-version of the original enumeration problem, where the goal is to achieve a certain level d of diversity by selecting k solutions. In this paper, we look at the Diverse-version of the query answering problem for Conjunctive Queries and extensions thereof. That is, we study the problem if it is possible to achieve a certain level d of diversity by selecting k answers to the given query and, in the positive case, to actually compute such k answers.

研究动机与目标

  • 形式化并分析联合查询(CQ)答案问题的多样化版本,目标是从解集中选择k个多样化的答案。
  • 在不同复杂度度量下研究该问题的计算复杂度:数据复杂度、查询复杂度和联合复杂度。
  • 通过建立FPT和XP成员关系,识别出可解情况,特别是针对无环和有界树宽CQ。
  • 通过识别不可解情况(如含否定的CQ或有界子模宽度的CQ),探索可解性的边界。
  • 为数据库中精确的多样化查询回答建立理论基础,补充现有启发式与采样方法。

提出的方法

  • 本文使用答案元组之间的汉明距离来定义多样性,并采用多项式时间可计算的聚合函数来度量k个答案的整体多样性。
  • 提出Diverse-CQ(δ)问题:给定数据库I、查询Q以及整数k和d,判断是否存在k个不同的答案,其聚合多样性δ ≥ d。
  • 作者采用参数化复杂度技术,以待选答案数k为参数进行分析,证明了无环和有界树宽CQ属于FPT和XP类。
  • 对于不可解情况(如含否定的CQ或有界子模宽度的CQ),论文证明了W[1]-难和NP-难结果,以明确理论边界。
  • 分析利用了已知难题的归约,并结合CQ的结构特性,包括超树宽和变量消除方案。
  • 框架被扩展至加权汉明距离和一般聚合函数,但核心分析聚焦于无权汉明距离和ws-单调聚合函数。

实验结果

研究问题

  • RQ1在何种条件下,选择k个多样化答案的联合查询问题属于固定参数可满足性(FPT)?
  • RQ2在数据复杂度、查询复杂度和联合复杂度下,无环和有界树宽联合查询的Diverse-CQ问题复杂度如何?
  • RQ3对于无环联合查询(UACQs)的多样性问题能否高效求解?这对更复杂的查询类有何启示?
  • RQ4联合查询中否定的存在如何影响多样性问题的可解性?
  • RQ5这些结果在有界子模宽度查询上能多大程度上被推广?此类查询广义化了超树宽和分数超树宽。

主要发现

  • 当参数化为k时,无环联合查询的Diverse-CQ问题属于FPT类,运行时间仅在k上指数增长,而在数据库大小上为多项式时间。
  • 对于有界树宽的CQ,当参数化为k时,问题属于XP类,表明对小k值具有可解性,但尚未建立该情况下的W[1]-难性结果。
  • 对于有界树宽且含否定的CQ,该问题在联合复杂度下为NP-难,表明其在无环和有界树宽情况之外存在本质不可解性。
  • 无环联合查询(UACQs)的多样性问题本身即为不可解,即使单个CQ为无环,这是由聚合函数和解集结构的性质决定的。
  • 将结果推广至有界子模宽度的CQ仍是开放问题,因为此类查询在评估中需要根本不同的算法技术,尤其涉及重-轻分割机制。
  • 本文证明了聚合函数的选择至关重要:尽管大多数上界结果对任意多项式时间聚合函数成立,但下界结果适用于ws-单调函数,包括求和与最小值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。