[論文レビュー] The Dichotomy of Evaluating Homomorphism-Closed Queries on Probabilistic Graphs
この論文は、二項の記号を持つ確率的グラフ上で、ホモモルフィズム閉じたクエリ(同値に言えば、結合的クエリの無限和(UCQ∞))を評価する際のデータ複雑性の二分法を確立する。すべての非有界UCQ∞クエリは評価において#P困難であることが証明され、有界なクエリは結合的クエリの和に還元可能であり、DalviとSuciuの先行の二分法によって分類される。この結果により、広範なクエリクラス、特に選言的Datalog、正規表現パスクエリ、オントロジー媒介クエリを含む、確率的クエリ評価の複雑性が完全に特徴づけられる。
We study the problem of query evaluation on probabilistic graphs, namely, tuple-independent probabilistic databases over signatures of arity two. We focus on the class of queries closed under homomorphisms, or, equivalently, the infinite unions of conjunctive queries. Our main result states that the probabilistic query evaluation problem is #P-hard for all unbounded queries from this class. As bounded queries from this class are equivalent to a union of conjunctive queries, they are already classified by the dichotomy of Dalvi and Suciu (2012). Hence, our result and theirs imply a complete data complexity dichotomy, between polynomial time and #P-hardness, on evaluating homomorphism-closed queries over probabilistic graphs. This dichotomy covers in particular all fragments of infinite unions of conjunctive queries over arity-two signatures, such as negation-free (disjunctive) Datalog, regular path queries, and a large class of ontology-mediated queries. The dichotomy also applies to a restricted case of probabilistic query evaluation called generalized model counting, where fact probabilities must be 0, 0.5, or 1. We show the main result by reducing from the problem of counting the valuations of positive partitioned 2-DNF formulae, or from the source-to-target reliability problem in an undirected graph, depending on properties of minimal models for the query.
研究の動機と目的
- ホモモルフィズム閉じたクエリの確率的グラフ上での評価における完全なデータ複雑性の二分法を確立すること。
- 広範な単調的・再帰的クエリ言語である、結合的クエリの無限和(UCQ∞)の確率的クエリ評価(PQE)の複雑性を分類すること。
- 結合的クエリの和(UCQs)からの既知の二分法をUCQ∞へと拡張すること、特にホモモルフィズムに関して閉じたクエリに対して。
- 一般化モデルカウント(GFOMC)のような制限付き確率モデルにおいても二分法が成り立つかを調査すること、ここで事実の確率は{0, 0.5, 1}に制限される。
提案手法
- 非反復的辺を最小モデルに含むUCQ∞クエリの#P困難性を示すために、#PP2DNF(正の分割2-DNF式の割り当て数の数え上げ)への還元。
- 非反復的辺を含まないクエリに対しては、#U-ST-CON(無向グラフにおけるソースからターゲットへの接続性)への還元を行い、モデル内の最小タイトな辺の詳細な分析に依存する。
- 分解と微細分解を含むモデル理論的技法を用いて、クエリ構造と最小モデルを分析する。
- 変換されたTIDの可能な世紀間の確率保存型一対一対応を構築し、GFOMCからPQEへの還元を実現し、クエリの満たされ具合を保存する。
- 二項の記号を持つシグネチャ上での非有界UCQ∞クエリが、事実の確率が{0, 0.5, 1}に制限されても#P困難のままであることを形式的証明する。
- 一元および二元述語を含むシグネチャへの結果の拡張のために、一元原子を自己ループ(R(x) → R′(x,x))に変換する。この変換により非有界性と困難性が保存される。
実験結果
リサーチクエスチョン
- RQ1ホモモルフィズム閉じたクエリの確率的グラフ上での評価における完全なデータ複雑性の二分法は存在するか?
- RQ2二項の記号を持つシグネチャ上でのすべての非有界UCQ∞クエリは、評価において#P困難であるか?
- RQ3確率が{0, 0.5, 1}に制限される一般化モデルカウント(GFOMC)問題へもPQEの二分法は拡張可能か?
- RQ4一元述語を含むシグネチャへも困難性の結果を拡張可能か?
- RQ5非有界UCQ∞クエリのPQEにおける#P困難性は、すべての事実の確率が0.5である未重み付きモデルカウント設定でも成立するか?
主な発見
- 二項の記号を持つシグネチャ上でのすべての非有界UCQ∞クエリは、確率的クエリ評価(PQE)において#P困難である。これは、有界クエリの多項式時間クラスと対比して完全な二分法を確立する。
- 事実の確率が{0, 0.5, 1}に制限されても#P困難性の結果は成立する。これは、これらの値のみを用いる還元により示され、二分法が一般化モデルカウント(GFOMC)問題へと拡張される。
- 一元および二元述語を含むシグネチャ上での任意の非有界UCQ∞クエリについて、GFOMC(Q)は#P困難である。これは、一元原子を自己ループに変換し、非有界性と困難性を保存することで証明される。
- GFOMCの二分法は成立する:Qが安全なUCQに同値であるか、そうでないかの二択である。同値であればGFOMC(Q)はFPに属し、そうでなければ#P困難である。
- 証明は二つの還元に依存する:非反復的辺を含むクエリについては#PP2DNFへの還元、最小タイトな辺を含むクエリについては#U-ST-CONへの還元であり、両者とも詳細なモデル理論的分析を要する。
- 結果は、適切な分解概念を用いた予想に基づき、任意のアリティのシグネチャへ一般化可能であるが、交差する事実を高アリティ関係で取り扱う技術的課題のため、拡張は未解決のままである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。