QUICK REVIEW

[논문 리뷰] Hyperedge Estimation using Polylogarithmic Subset Queries

Rashtchian, Cyrus, Woodruff, David P.|arXiv (Cornell University)|2019. 08. 12.

Complexity and Algorithms in Graphs참고 문헌 17인용 수 3

한 줄 요약

이 논문은 일반화된 d-분할 독립집합(GPIS) 오라클에 대한 다항로그 시간 쿼리로 d-균일 초그래프의 초모서리 수를 추정하기 위한 랜덤화 알고리즘을 제시한다. 알고리즘은 높은 확률로 진짜 초모서리 수의 (1±ϵ)-근사값을 얻으며, d가 상수일 경우 O_d(log^{5d+5} n / ϵ^4)개의 GPIS 쿼리를 사용한다. 이는 이전의 그래프 모서리 및 삼각형 추정 작업을 초그래프로 확장하여 효율적인 쿼리 복잡도를 확보한다.

ABSTRACT

In this work, we estimate the number of hyperedges in a hypergraph ${\cal H}(U({\cal H}), {\cal F}({\cal H}))$, where $U({\cal H})$ denotes the set of vertices and ${\cal F}({\cal H}))$ denotes the set of hyperedges. We assume a query oracle access to the hypergraph ${\cal H}$. Estimating the number of edges, triangles or small subgraphs in a graph is a well studied problem. Beame \etal~and Bhattacharya \etal~gave algorithms to estimate the number of edges and triangles in a graph using queries to the {\sc Bipartite Independent Set} ({\sc BIS}) and the {\sc Tripartite Independent Set} ({\sc TIS}) oracles, respectively. We generalize the earlier works by estimating the number of hyperedges using a query oracle, known as the {\bf Generalized $d$-partite independent set oracle ({\sc GPIS})}, that takes $d$ (non-empty) pairwise disjoint subsets of vertices $A_1,\ldots,A_d \subseteq U({\cal H})$ as input, and answers whether there exists a hyperedge in ${\cal H}$ having (exactly) one vertex in each $A_i, i \in \{1,2,\ldots,d\}$. We give a randomized algorithm for the hyperedge estimation problem using the {\sc GPIS} query oracle to output $\widehat{m}$ for $m({\cal H})$ satisfying $(1-ε) \cdot m({\cal H}) \leq \widehat{m} \leq (1+ε) \cdot m({\cal H})$. The number of queries made by our algorithm, assuming $d$ to be a constant, is polylogarithmic in the number of vertices of the hypergraph.

연구 동기 및 목표

일반화된 쿼리 모델을 사용하여 이전의 선형 이하 그래프 추정 작업(예: 모서리, 삼각형)을 초그래프로 확장하기 위해.
초모서리 추정의 쿼리 복잡도가 공통된 정점을 공유하는 초모서리의 수에 종속되지 않고 다항로그 시간으로 유지될 수 있는지 검토하기 위해.
d-균일 초그래프를 위한 새로운 쿼리 오라클인 일반화된 d-분할 독립집합(GPIS)을 정식화하고 분석하기 위해.
粗역 추정과 희소화를 조합한 재귀적 반복 추정 알고리즘을 설계하여 높은 확률로 (1±ϵ)-근사값을 달성하기 위해.
n에 대해 다항로그 시간, ϵ에 대해 다항적 역수로 스케일링되는 쿼리 복잡도의 경계를 설정하고, d에 대해 상수 인자로 의존하도록 하기 위해.

제안 방법

알고리즘은 데이터 구조 D를 유지하는 재귀적 추정 프레임워크를 사용한다. 여기서 D는 서로소인 정점 부분집합 A1,…,Ad와 가중치 w로 구성된 튜플 (A1,…,Ad,w)로 이루어진다.
각 튜플 (A1,…,Ad)와 교차하는 초모서리 수를 높은 확률로 추정하기 위해 GPIS1 쿼리를 사용하여 근사 추정을 수행한다.
활성 튜플 수를 줄이기 위해 반복적으로 희소화를 적용하여 총 추정 초모서리 수가 진짜 값의 (1±ϵ) 범위 내에 유지되도록 보장한다.
매 단계에서 GPIS1 쿼리를 사용한 근사 추정과 GPIS2 쿼리를 사용한 희소화를 번갈아 수행하며, Chernoff 유형 부등식을 통해 농도 경계를 유지한다.
d에 대한 귀납법을 활용하여 BIS 및 TIS 오라클을 GPIS 오라클로 일반화함으로써 d-균일 초모서리의 횡단 구조를 포괄한다.
모든 근사 추정이 동시에 성공할 확률이 매우 높도록 확률적 경계를 사용하며, 이는 O(log^{4d} n / ϵ^2)개의 튜플에 대한 유니온 바운드에 의존한다.

실험 결과

연구 질문

RQ1d-균일 초그래프에서의 초모서리 추정 문제는 일반화된 오라클에 대한 다항로그 시간 쿼리만으로 해결될 수 있는가?
RQ2이전 모델에서 d−1개의 정점을 공유하는 초모서리의 수에 대한 의존성은 본질적인가, 아니면 피할 수 있는가?
RQ3BIS 및 TIS 오라클 프레임워크는 d-분할 환경으로 일반화될 수 있으며, 다항로그 시간 쿼리 복잡도를 유지할 수 있는가?
RQ4GPIS 오라클을 사용한 초모서리 추정의 쿼리 복잡도는 무엇이며, d, n, ϵ에 따라 어떻게 스케일링되는가?
RQ5粗역 추정과 희소화를 조합한 재귀적 추정 전략이 높은 확률로 (1±ϵ)-근사값을 달성할 수 있는가?

주요 결과

알고리즘은 초모서리 수 m(H)에 대해 높은 확률로 (1±ϵ)-근사값을 달성한다.
사용된 총 GPIS 쿼리 수는 O_d(log^{5d+5} n / ϵ^4)이며, d가 상수일 경우 n에 대해 다항로그 시간이다.
쿼리 복잡도는 d에 대해 상수 인자로 의존하며, log n의 지수는 O(d)이고, ϵ의 지수는 절대 상수이다.
성공 확률은 최소 1 − 1/n^{4d}로, 모든 추정 단계에서 높은 신뢰도를 보장한다.
알고리즘은 언제나 최대 O_d(log^{4d} n / ϵ^2)개의 튜플로 구성된 데이터 구조를 유지하며, 반복적인 희소화와 근사 추정을 통해 개선한다.
분석 결과 추정 오차는 i ≤ 2d log n 반복 동안 (1±λ)^i로 경계지며, 여기서 λ = ϵ/(4d log n)이므로 최종적으로 (1±ϵ) 근사값이 도출된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.