Skip to main content
QUICK REVIEW

[논문 리뷰] Hyperedge Estimation using Polylogarithmic Subset Queries

Rashtchian, Cyrus, Woodruff, David P.|arXiv (Cornell University)|2019. 08. 12.
Complexity and Algorithms in Graphs참고 문헌 17인용 수 3
한 줄 요약

이 논문은 일반화된 d-분할 독립집합(GPIS) 오라클에 대한 다항로그 시간 쿼리로 d-균일 초그래프의 초모서리 수를 추정하기 위한 랜덤화 알고리즘을 제시한다. 알고리즘은 높은 확률로 진짜 초모서리 수의 (1±ϵ)-근사값을 얻으며, d가 상수일 경우 O_d(log^{5d+5} n / ϵ^4)개의 GPIS 쿼리를 사용한다. 이는 이전의 그래프 모서리 및 삼각형 추정 작업을 초그래프로 확장하여 효율적인 쿼리 복잡도를 확보한다.

ABSTRACT

In this work, we estimate the number of hyperedges in a hypergraph ${\cal H}(U({\cal H}), {\cal F}({\cal H}))$, where $U({\cal H})$ denotes the set of vertices and ${\cal F}({\cal H}))$ denotes the set of hyperedges. We assume a query oracle access to the hypergraph ${\cal H}$. Estimating the number of edges, triangles or small subgraphs in a graph is a well studied problem. Beame \etal~and Bhattacharya \etal~gave algorithms to estimate the number of edges and triangles in a graph using queries to the {\sc Bipartite Independent Set} ({\sc BIS}) and the {\sc Tripartite Independent Set} ({\sc TIS}) oracles, respectively. We generalize the earlier works by estimating the number of hyperedges using a query oracle, known as the {\bf Generalized $d$-partite independent set oracle ({\sc GPIS})}, that takes $d$ (non-empty) pairwise disjoint subsets of vertices $A_1,\ldots,A_d \subseteq U({\cal H})$ as input, and answers whether there exists a hyperedge in ${\cal H}$ having (exactly) one vertex in each $A_i, i \in \{1,2,\ldots,d\}$. We give a randomized algorithm for the hyperedge estimation problem using the {\sc GPIS} query oracle to output $\widehat{m}$ for $m({\cal H})$ satisfying $(1-ε) \cdot m({\cal H}) \leq \widehat{m} \leq (1+ε) \cdot m({\cal H})$. The number of queries made by our algorithm, assuming $d$ to be a constant, is polylogarithmic in the number of vertices of the hypergraph.

연구 동기 및 목표

  • 일반화된 쿼리 모델을 사용하여 이전의 선형 이하 그래프 추정 작업(예: 모서리, 삼각형)을 초그래프로 확장하기 위해.
  • 초모서리 추정의 쿼리 복잡도가 공통된 정점을 공유하는 초모서리의 수에 종속되지 않고 다항로그 시간으로 유지될 수 있는지 검토하기 위해.
  • d-균일 초그래프를 위한 새로운 쿼리 오라클인 일반화된 d-분할 독립집합(GPIS)을 정식화하고 분석하기 위해.
  • 粗역 추정과 희소화를 조합한 재귀적 반복 추정 알고리즘을 설계하여 높은 확률로 (1±ϵ)-근사값을 달성하기 위해.
  • n에 대해 다항로그 시간, ϵ에 대해 다항적 역수로 스케일링되는 쿼리 복잡도의 경계를 설정하고, d에 대해 상수 인자로 의존하도록 하기 위해.

제안 방법

  • 알고리즘은 데이터 구조 D를 유지하는 재귀적 추정 프레임워크를 사용한다. 여기서 D는 서로소인 정점 부분집합 A1,…,Ad와 가중치 w로 구성된 튜플 (A1,…,Ad,w)로 이루어진다.
  • 각 튜플 (A1,…,Ad)와 교차하는 초모서리 수를 높은 확률로 추정하기 위해 GPIS1 쿼리를 사용하여 근사 추정을 수행한다.
  • 활성 튜플 수를 줄이기 위해 반복적으로 희소화를 적용하여 총 추정 초모서리 수가 진짜 값의 (1±ϵ) 범위 내에 유지되도록 보장한다.
  • 매 단계에서 GPIS1 쿼리를 사용한 근사 추정과 GPIS2 쿼리를 사용한 희소화를 번갈아 수행하며, Chernoff 유형 부등식을 통해 농도 경계를 유지한다.
  • d에 대한 귀납법을 활용하여 BIS 및 TIS 오라클을 GPIS 오라클로 일반화함으로써 d-균일 초모서리의 횡단 구조를 포괄한다.
  • 모든 근사 추정이 동시에 성공할 확률이 매우 높도록 확률적 경계를 사용하며, 이는 O(log^{4d} n / ϵ^2)개의 튜플에 대한 유니온 바운드에 의존한다.

실험 결과

연구 질문

  • RQ1d-균일 초그래프에서의 초모서리 추정 문제는 일반화된 오라클에 대한 다항로그 시간 쿼리만으로 해결될 수 있는가?
  • RQ2이전 모델에서 d−1개의 정점을 공유하는 초모서리의 수에 대한 의존성은 본질적인가, 아니면 피할 수 있는가?
  • RQ3BIS 및 TIS 오라클 프레임워크는 d-분할 환경으로 일반화될 수 있으며, 다항로그 시간 쿼리 복잡도를 유지할 수 있는가?
  • RQ4GPIS 오라클을 사용한 초모서리 추정의 쿼리 복잡도는 무엇이며, d, n, ϵ에 따라 어떻게 스케일링되는가?
  • RQ5粗역 추정과 희소화를 조합한 재귀적 추정 전략이 높은 확률로 (1±ϵ)-근사값을 달성할 수 있는가?

주요 결과

  • 알고리즘은 초모서리 수 m(H)에 대해 높은 확률로 (1±ϵ)-근사값을 달성한다.
  • 사용된 총 GPIS 쿼리 수는 O_d(log^{5d+5} n / ϵ^4)이며, d가 상수일 경우 n에 대해 다항로그 시간이다.
  • 쿼리 복잡도는 d에 대해 상수 인자로 의존하며, log n의 지수는 O(d)이고, ϵ의 지수는 절대 상수이다.
  • 성공 확률은 최소 1 − 1/n^{4d}로, 모든 추정 단계에서 높은 신뢰도를 보장한다.
  • 알고리즘은 언제나 최대 O_d(log^{4d} n / ϵ^2)개의 튜플로 구성된 데이터 구조를 유지하며, 반복적인 희소화와 근사 추정을 통해 개선한다.
  • 분석 결과 추정 오차는 i ≤ 2d log n 반복 동안 (1±λ)^i로 경계지며, 여기서 λ = ϵ/(4d log n)이므로 최종적으로 (1±ϵ) 근사값이 도출된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.