Skip to main content
QUICK REVIEW

[论文解读] Detecting Ambiguity in Prioritized Database Repairing

Benny Kimelfeld, Ester Livshits|arXiv (Cornell University)|Mar 6, 2016
Data Quality and Management参考文献 29被引用 1
一句话总结

本文研究了在三种语义下确定优先数据库修复是否唯一确定(即是否存在且仅存在一个最优修复)的复杂性问题:帕累托最优、全局最优和完成最优。研究发现,帕累托最优和全局最优的判定是计算困难的(分别为 coNP-完全和 Πp₂-完全),而完成最优则对所有函数依赖关系都存在多项式时间算法,使其成为实现无歧义数据库清洗最易处理的选项。

ABSTRACT

In its traditional definition, a repair of an inconsistent database is a consistent database that differs from the inconsistent one in a "minimal way." Often, repairs are not equally legitimate, as it is desired to prefer one over another; for example, one fact is regarded more reliable than another, or a more recent fact should be preferred to an earlier one. Motivated by these considerations, researchers have introduced and investigated the framework of preferred repairs, in the context of denial constraints and subset repairs. There, a priority relation between facts is lifted towards a priority relation between consistent databases, and repairs are restricted to the ones that are optimal in the lifted sense. Three notions of lifting (and optimal repairs) have been proposed: Pareto, global, and completion. In this paper we investigate the complexity of deciding whether the priority relation suffices to clean the database unambiguously, or in other words, whether there is exactly one optimal repair. We show that the different lifting semantics entail highly different complexities. Under Pareto optimality, the problem is coNP-complete, in data complexity, for every set of functional dependencies (FDs), except for the tractable case of (equivalence to) one FD per relation. Under global optimality, one FD per relation is still tractable, but we establish Pi-2-p-completeness for a relation with two FDs. In contrast, under completion optimality the problem is solvable in polynomial time for every set of FDs. In fact, we present a polynomial-time algorithm for arbitrary conflict hypergraphs. We further show that under a general assumption of transitivity, this algorithm solves the problem even for global optimality. The algorithm is extremely simple, but its proof of correctness is quite intricate.

研究动机与目标

  • 确定何时一个优先数据库修复是唯一确定的——即在何种情况下仅存在一个最优修复。
  • 比较在三种语义(帕累托最优、全局最优和完成最优)下判定这种唯一性(即唯一性)的计算复杂性。
  • 识别可解情况,并为每种语义在函数依赖关系下的复杂性建立二分性定理。
  • 为完成最优性设计一个多项式时间算法,并在一般冲突超图上证明其正确性。
  • 探讨优先关系的传递性及其对全局最优性的影响。

提出的方法

  • 作者形式化了三种提升语义——帕累托、全局和完成——以将事实级别优先级转化为子实例级别最优性。
  • 他们分析了在每种语义下判定数据库是否恰好存在一个最优修复(即唯一性)的数据复杂性。
  • 对于完成最优性,他们设计了一个简单但复杂的多项式时间算法,适用于任意冲突超图。
  • 他们在一般传递性假设下证明了该算法的正确性,从而将其适用性扩展到某些情况下的全局最优性。
  • 他们使用归约和复杂性理论技术,建立了帕累托最优性为 coNP-完全,全局最优性为 Πp₂-完全。
  • 他们为 p-唯一性和 g-唯一性建立了复杂性二分性,基于函数依赖结构识别出可解情况。

实验结果

研究问题

  • RQ1在何种条件下,帕累托语义下恰好存在一个最优修复,其判定的复杂性如何?
  • RQ2全局语义下唯一最优修复的判定复杂性是多少,是否依赖于函数依赖关系的数量?
  • RQ3能否为完成语义下的唯一最优修复设计一个多项式时间算法,且该算法是否适用于一般冲突超图?
  • RQ4优先关系的传递性是否能实现全局语义下的可解唯一性判定?
  • RQ5在无歧义数据库修复方面,三种语义在计算效率上的比较如何?

主要发现

  • 对于所有函数依赖集,帕累托唯一性为 coNP-完全,但当每个关系中恰好只有一个函数依赖时,该问题可解。
  • 当每个关系中只有一个函数依赖时,全局唯一性为 coNP-完全;但当一个关系中存在两个函数依赖时,其复杂性上升为 Πp₂-完全。
  • 完成唯一性对所有函数依赖关系均可在多项式时间内求解,且该算法适用于任意冲突超图。
  • 为完成最优性提出的多项式时间算法虽简单,但其正确性依赖于涉及传递性和超图对偶性的非平凡证明。
  • 在传递性假设下,同一算法可解决全局唯一性问题,暗示完成语义与全局语义之间可能存在潜在联系。
  • 研究结果表明,完成最优性是确保无歧义修复最高效的语义,其计算复杂性优于帕累托和全局语义。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。