QUICK REVIEW

[論文レビュー] Hyperedge Estimation using Polylogarithmic Subset Queries

Rashtchian, Cyrus, Woodruff, David P.|arXiv (Cornell University)|Aug 12, 2019

Complexity and Algorithms in Graphs参考文献 17被引用数 3

ひとこと要約

この論文は、d-一様ハイパーグラフにおけるハイパーエッジ数の推定のための確率的アルゴリズムを提示している。このアルゴリズムは、一般化されたd部独立集合（GPIS）オラクルへの多対数的クエリを用い、真のハイパーエッジ数の(1±ϵ)-近似を高確率で達成する。dが定数のとき、O_d(log^{5d+5} n / ϵ^4)回のGPISクエリを必要とし、従来のグラフエッジおよび三角形推定の研究をハイパーグラフへと拡張するものである。

ABSTRACT

In this work, we estimate the number of hyperedges in a hypergraph ${\cal H}(U({\cal H}), {\cal F}({\cal H}))$, where $U({\cal H})$ denotes the set of vertices and ${\cal F}({\cal H}))$ denotes the set of hyperedges. We assume a query oracle access to the hypergraph ${\cal H}$. Estimating the number of edges, triangles or small subgraphs in a graph is a well studied problem. Beame \etal~and Bhattacharya \etal~gave algorithms to estimate the number of edges and triangles in a graph using queries to the {\sc Bipartite Independent Set} ({\sc BIS}) and the {\sc Tripartite Independent Set} ({\sc TIS}) oracles, respectively. We generalize the earlier works by estimating the number of hyperedges using a query oracle, known as the {\bf Generalized $d$-partite independent set oracle ({\sc GPIS})}, that takes $d$ (non-empty) pairwise disjoint subsets of vertices $A_1,\ldots,A_d \subseteq U({\cal H})$ as input, and answers whether there exists a hyperedge in ${\cal H}$ having (exactly) one vertex in each $A_i, i \in \{1,2,\ldots,d\}$. We give a randomized algorithm for the hyperedge estimation problem using the {\sc GPIS} query oracle to output $\widehat{m}$ for $m({\cal H})$ satisfying $(1-ε) \cdot m({\cal H}) \leq \widehat{m} \leq (1+ε) \cdot m({\cal H})$. The number of queries made by our algorithm, assuming $d$ to be a constant, is polylogarithmic in the number of vertices of the hypergraph.

研究の動機と目的

一般化されたクエリモデルを用いて、従来の部分線形グラフ推定（例：エッジ、三角形）の研究をハイパーグラフへと拡張すること。
ハイパーエッジ推定のクエリ複雑性が、共通の頂点を持つハイパーエッジの数に依存せずに多対数的であるかどうかを検討すること。
d-一様ハイパーグラフにおける新しいクエリオラクルである一般化されたd部独立集合（GPIS）を形式化し、分析すること。
粗い推定とスパarsificationを組み合わせた再帰的で反復的な推定アルゴリズムを設計し、高確率での(1±ϵ)-近似を達成すること。
nの多対数的、ϵの逆多項式的スケーリングに従うクエリ複雑性の上限を確立すること。dは定数係数として扱う。

提案手法

アルゴリズムは、各Aiが互いに素な頂点部分集合であり、wが重みであるようなタプル(A1,…,Ad,w)のデータ構造Dを維持する再帰的推定フレームワークを用いる。
各タプル(A1,…,Ad)と交差するハイパーエッジ数の粗い推定を、GPIS1クエリを用いて高確率で行う。
反復的にスパース化を適用し、有効なタプルの数を減少させ、総合的なハイパーエッジ数の推定値が真の値の(1±ϵ)の範囲内に保たれるようにする。
GPIS1クエリを用いた粗い推定と、GPIS2クエリを用いたスパース化を交互に実行し、チェルノフ型不等式を用いて各ステップでの集中性を保証する。
dに関する帰納法を用い、BISおよびTISオラクルをGPISオラクルに一般化することで、d-一様ハイパーエッジのトランスバーサル構造を捉える。
確率的バウンドを用いて、すべての粗い推定が同時に高確率で成功するように保証し、O(log^{4d} n / ϵ^2)個のタプルに対する和集合バウンドに依存する。

実験結果

リサーチクエスチョン

RQ1d-一様ハイパーグラフにおけるハイパーエッジ推定問題は、一般化されたオラクルへの多対数的クエリのみで解けるか？
RQ2以前のモデルでは、d−1個の頂点を共有するハイパーエッジの数に依存していたが、これは本質的であるか、回避可能か？
RQ3BISおよびTISオラクルフレームワークをd部構造に一般化できるか。その際、多対数的クエリ複雑性を保てるか？
RQ4GPISオラクルを用いたハイパーエッジ推定のクエリ複雑性は何か。d、n、ϵにどのように依存するか？
RQ5粗い推定とスパース化を組み合わせた再帰的推定戦略は、高確率での(1±ϵ)-近似を達成できるか？

主な発見

アルゴリズムは、ハイパーエッジ数m(H)の(1±ϵ)-近似を高確率で達成する。
使用するGPISクエリの総数はO_d(log^{5d+5} n / ϵ^4)であり、dが定数のときnの多対数的である。
クエリ複雑性はdを定数係数として扱い、log nの指数がO(d)、ϵの指数が絶対定数となる。
成功確率は1 − 1/n^{4d}以上であり、すべての推定ステップで高い信頼性を保証する。
アルゴリズムは、任意の時点でO_d(log^{4d} n / ϵ^2)個のタプルからなるデータ構造を維持し、スパース化と粗い推定による反復的精錬を実行する。
解析により、推定誤差がi ≤ 2d log n回の反復について(1±λ)^iで抑えられ、λ = ϵ/(4d log n)とすると、最終的な近似は(1±ϵ)となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。