QUICK REVIEW

[論文レビュー] Detecting Ambiguity in Prioritized Database Repairing

Benny Kimelfeld, Ester Livshits|arXiv (Cornell University)|Mar 6, 2016

Data Quality and Management参考文献 29被引用数 1

ひとこと要約

本稿は、優先順位付きデータベース修復が一意に決定されるかどうかの複雑性を調査している—すなわち、三つの意味論（パレート、グローバル、完了最適性）の下で、ちょうど一つの最適な修復が存在するかどうかを判定する問題である。本稿では、パレートおよびグローバル最適性が計算的に困難（それぞれcoNP完全およびΠp₂完全）である一方で、完了最適性はすべての関数的依存関係に対して多項式時間アルゴリズムを備えているため、明確なデータベースクリーニングの観点から最も扱いやすい選択肢であると示している。

ABSTRACT

In its traditional definition, a repair of an inconsistent database is a consistent database that differs from the inconsistent one in a "minimal way." Often, repairs are not equally legitimate, as it is desired to prefer one over another; for example, one fact is regarded more reliable than another, or a more recent fact should be preferred to an earlier one. Motivated by these considerations, researchers have introduced and investigated the framework of preferred repairs, in the context of denial constraints and subset repairs. There, a priority relation between facts is lifted towards a priority relation between consistent databases, and repairs are restricted to the ones that are optimal in the lifted sense. Three notions of lifting (and optimal repairs) have been proposed: Pareto, global, and completion. In this paper we investigate the complexity of deciding whether the priority relation suffices to clean the database unambiguously, or in other words, whether there is exactly one optimal repair. We show that the different lifting semantics entail highly different complexities. Under Pareto optimality, the problem is coNP-complete, in data complexity, for every set of functional dependencies (FDs), except for the tractable case of (equivalence to) one FD per relation. Under global optimality, one FD per relation is still tractable, but we establish Pi-2-p-completeness for a relation with two FDs. In contrast, under completion optimality the problem is solvable in polynomial time for every set of FDs. In fact, we present a polynomial-time algorithm for arbitrary conflict hypergraphs. We further show that under a general assumption of transitivity, this algorithm solves the problem even for global optimality. The algorithm is extremely simple, but its proof of correctness is quite intricate.

研究の動機と目的

優先順位付きデータベース修復が一意に決定される—すなわち、最適な修復がちょうど一つ存在する—条件を特定すること。
パレート、グローバル、完了最適性の三つの意味論の間で、この一意性（カテゴリシティ）を決定する計算複雑性を比較すること。
各意味論における関数的依存関係の下での tractable ケースを同定し、複雑性の二分法を確立すること。
完了最適性に対して多項式時間アルゴリズムを設計し、一般の衝突ハイパーグラフ上でその正しさを証明すること。
優先関係の推移性の影響と、それがグローバル最適性に与える影響を検討すること。

提案手法

著者らは、事実レベルの優先順位を部分インスタンスレベルの最適性に変換するための三つのリフト意味論（パレート、グローバル、完了）を形式化する。
各意味論の下で、データベースにちょうど一つの最適な修復が存在するかを判定する問題（カテゴリシティ）のデータ複雑性を分析する。
完了最適性の観点から、任意の衝突ハイパーグラフ上で動作する、単純だが複雑な多項式時間アルゴリズムを設計する。
一般の推移性仮定の下で、そのアルゴリズムの正しさを証明し、特定の状況下でグローバル最適性への適用範囲を拡張する。
還元および複雑性理論的技法を用いて、パレート最適性がcoNP完全、グローバル最適性がΠp₂完全であることを確立する。
p-カテゴリシティおよびg-カテゴリシティの複雑性における二分法を確立し、関数的依存関係構造に基づく tractable ケースを同定する。

実験結果

リサーチクエスチョン

RQ1パレート意味論下で、ちょうど一つの最適な修復が存在する条件は何か？その判定の複雑性は？
RQ2グローバル意味論下で、一意の最適な修復が存在するかを判定する複雑性は何か？また、関数的依存関係の数に依存するか？
RQ3完了意味論下で、一意の最適な修復を判定する多項式時間アルゴリズムを構築可能か？一般の衝突ハイパーグラフへも拡張可能か？
RQ4優先関係の推移性が、グローバル意味論下での tractable なカテゴリシティを可能にするか？
RQ5明確なデータベース修復において、三つの意味論は計算効率の観点でどのように比較できるか？

主な発見

パレートカテゴリシティは、関数的依存関係の集合が関係ごとにちょうど一つのFDを含む場合を除き、すべてのFD集合に対してcoNP完全である。
グローバルカテゴリシティは、関係ごとに一つのFDがある場合にcoNP完全であるが、関係内に二つのFDが存在する場合にはΠp₂完全に上昇する。
完了カテゴリシティは、すべての関数的依存関係に対して多項式時間で解ける。また、そのアルゴリズムは任意の衝突ハイパーグラフ上で動作する。
完了最適性のための提案された多項式時間アルゴリズムは単純であるが、その正しさは推移性とハイパーグラフ双対性を含む非自明な証明に依存している。
推移性の仮定の下では、同じアルゴリズムがグローバルカテゴリシティを解くことができ、これにより完了とグローバル意味論の間の潜在的な接続が示唆される。
結果として、完了最適性が、計算複雑性という観点から、パレートおよびグローバル最適性を上回る明確な修復を保証する最も効率的な意味論であることが確立された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。