Skip to main content
QUICK REVIEW

[논문 리뷰] A Simple Sublinear-Time Algorithm for Counting Arbitrary Subgraphs via Edge Sampling

Sepehr Assadi, Michael Kapralov|arXiv (Cornell University)|2018. 11. 19.
Complexity and Algorithms in Graphs인용 수 31
한 줄 요약

이 논문은 degree, neighbor, pair, edge-sample 쿼리를 사용하여 큰 그래프 $ G $ 내의 임의의 서브그래프 $ H $ 의 수를 추정하는 단순한 하향 시간 알고리즘을 제시한다. 이 알고리즘은 $ O^*\left(\frac{m^{\rho(H)}}{\#H}\right) $ 시간 내에 $ (1\pm\varepsilon) $-근사치를 달성하며, 삼각형과 클리크의 경우 기존 최적의 bound를 유지하고, edge sampling 을 통해 모든 서브그래프로 확장하여 $ n $-의존 항을 피하는 데 성공한 conjecture 를 해결한다.

ABSTRACT

In the subgraph counting problem, we are given a input graph $G(V, E)$ and a target graph $H$; the goal is to estimate the number of occurrences of $H$ in $G$. Our focus here is on designing sublinear-time algorithms for approximately counting occurrences of $H$ in $G$ in the setting where the algorithm is given query access to $G$. This problem has been studied in several recent papers which primarily focused on specific families of graphs $H$ such as triangles, cliques, and stars. However, not much is known about approximate counting of arbitrary graphs $H$. This is in sharp contrast to the closely related subgraph enumeration problem that has received significant attention in the database community as the database join problem. The AGM bound shows that the maximum number of occurrences of any arbitrary subgraph $H$ in a graph $G$ with $m$ edges is $O(m^{\ ho(H)})$, where $\ ho(H)$ is the fractional edge-cover of $H$, and enumeration algorithms with matching runtime are known for any $H$. We bridge this gap between subgraph counting and subgraph enumeration by designing a sublinear-time algorithm that can estimate the number of any arbitrary subgraph $H$ in $G$, denoted by $\\#H$, to within a $(1\\pm \\epsilon)$-approximation w.h.p. in $O(\\frac{m^{\ ho(H)}}{\\#H}) \\cdot poly(\\log{n},1/\\epsilon)$ time. Our algorithm is allowed the standard set of queries for general graphs, namely degree queries, pair queries and neighbor queries, plus an additional edge-sample query that returns an edge chosen uniformly at random. The performance of our algorithm matches those of Eden et.al. [FOCS 2015, STOC 2018] for counting triangles and cliques and extend them to all choices of subgraph $H$ under the additional assumption of edge-sample queries. We further show that our algorithm works for the more general database join size estimation problem and prove a matching lower bound for this problem.

연구 동기 및 목표

  • 표준 쿼리 액세스 하에, 큰 그래프 $ G $ 내에서 임의의 서브그래프 $ H $ 의 발생 수를 추정하는 하향 시간 알고리즘을 설계하는 것.
  • 특정 가족(예: 삼각형, 클리크)을 초과하여 서브그래프 카운팅과 서브그래프 카운팅 간 격차를 메우기 위해 서브그래프 카운팅을 확장하는 것.
  • 삼각형과 클리크의 경우 알려진 bound 와 일치하는 최적의 쿼리 복잡도를 달성하면서, edge-sample 쿼리를 통해 $ n $-의존 추가 항을 제거하는 것.
  • 색칠된 서브그래프 수 추정의 일반 문제에 대해 하한을 설정하여 쿼리 복잡도의 최적성 증명하는 것.

제안 방법

  • 알고리즘은 degree, neighbor, pair, edge-sample 쿼리를 사용하여 간편하게 엣지를 무작위로 샘플링하고 정점의 국소적 이웃을 탐색한다.
  • 서브그래프 카운팅의 渐近 복잡도를 결정하는 $ H $ 의 분수 엣지 커버 수 $ \rho(H) $ 를 활용한다.
  • 핵심 아이디어는 edge sampling 을 통해 엣지가 $ H $-복사본에 속할 확률을 추정함으로써 $ H $-복사본의 수를 효율적으로 추정하는 것이다.
  • 이러한 추정치를 랜덤 샘플링 전략과 결합하여 $ G $ 내의 $ H $-이sovolumetric 서브그래프 수 $ \#H $ 에 대해 $ (1\pm\varepsilon) $-근사치를 계산한다.
  • 데이터베이스 조인 크기 추정 문제를 모델링하기 위해 색칠된 서브그래프로의 일반화를 도입하고, 이 설정에서 하한을 증명한다.
  • 분석은 확률적 추론과 쿼리 복잡도 하한을 증명하기 위해 신중하게 구성된 그래프 분포에 기반하며, edge sampling 이 없을 경우 $ \Omega(m) $ 쿼리가 필요하다는 것을 보여준다.

실험 결과

연구 질문

  • RQ1특정 케이스(예: 삼각형, 클리크)를 초월하여, 하향 시간 알고리즘이 그래프 $ G $ 내의 임의의 서브그래프 $ H $ 의 수를 추정할 수 있는가?
  • RQ2edge-sample 쿼리의 포함이 쿼리 복잡도에서 $ n $-의존 추가 항을 피하는 최적의 하향 시간 알고리즘을 가능하게 하는가?
  • RQ3edge sampling 이 존재하더라도, 서브그래프 카운팅에 대해 $ O^*\left(\frac{m^{\rho(H)}}{\#H}\right) $ 의 쿼리 복잡도가 tight 한가?
  • RQ4이 프레임워크는 데이터베이스에서 자연스러운 조인 크기 추정에 대응하는 더 일반적인 문제인 색칠된 서브그래프 수 추정으로 확장될 수 있는가?

주요 결과

  • 제안된 알고리즘은 $ O^*\left(\min\left\{m, \frac{m^{\rho(H)}}{\#H}\right\} \right) $ 쿼리와 $ O^*\left(\frac{m^{\rho(H)}}{\#H}\right) $ 시간 내에 $ G $ 내의 $ H $-복사본 수에 대해 $ (1\pm\varepsilon) $-근사치를 달성한다.
  • $ k $-클리크의 경우 Eden 등이 제시한 최고의 기존 bound 와 일치하지만, edge-sample 쿼리를 사용함으로써 그들의 $ O^*\left(\frac{n}{(\#K_k)^{1/k}}\right) $ 추가 항을 피한다.
  • 알고리즘의 쿼리 복잡도는 다항로그 인자 이외에는 최적이며, 일반적인 색칠된 서브그래프 추정 문제에 대해 $ \Omega\left(\frac{m^{\rho(H)}}{\#H}\right) $ 하한이 존재함으로써 이를 입증한다.
  • 하한 구성은 $ \mathcal{G}_0 $ 과 $ \mathcal{G}_1 $ 이라는 두 그래프 분포를 사용하며, 이들은 오직 $ m^{\rho(H)-1} $ 개의 색칠된 $ H $-복사본의 유무에서만 다름을 이용하여, edge sampling 이 없을 경우 $ \Omega(m) $ 쿼리가 필요하다는 것을 증명한다.
  • Eden 과 Rosenbaum 의 conjecture 는 edge-sample 쿼리가 서브그래프 카운팅의 쿼리 복잡도에서 $ n $-의존 항이 필요 없음을 보여줌으로써 해결된다.
  • 이 프레임워크는 색칠된 서브그래프를 통해 데이터베이스 조인 크기 추정 문제로 일반화되며, 이 보다 넓은 설정에서도 하한이 유지되어 최적성의 증명이 이루어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.