Skip to main content
QUICK REVIEW

[논문 리뷰] GYM: A Multiround Join Algorithm In MapReduce

Foto Afrati, Manas Joglekar|arXiv (Cornell University)|2014. 10. 15.
Complexity and Algorithms in Graphs참고 문헌 38인용 수 27
한 줄 요약

이 논문은 일반화된 하이퍼트리 분해(GHD)를 사용하는 다중 라운드 분산 조인 알고리즘인 GYM을 소개한다. Yannakakis의 알고리즘을 일반화하여, 넓이와 교차 넓이를 활용한 쿼리 구조를 고려함으로써, 높은 확률로 최적의 통신 비용—O(n(INw + OUT)²/M)의 통신 비용을 O(n)라운드 내에서, O(n(IN·max(w,3iw) + OUT)²/M)의 통신 비용을 O(log n)라운드 내에서 달성함으로써, 대규모 분산 시스템에서 효율적인 동치조인 처리를 가능하게 한다. 이는 통신 비용을 최소화하고 라운드 복잡도를 확장 가능하게 한다.

ABSTRACT

Multiround algorithms are now commonly used in distributed data processing systems, yet the extent to which algorithms can benefit from running more rounds is not well understood. This paper answers this question for a spectrum of rounds for the problem of computing the equijoin of $n$ relations. Specifically, given any query $Q$ with width $\w$, {\em intersection width} $\iw$, input size $\mathrm{IN}$, output size $\mathrm{OUT}$, and a cluster of machines with $M$ memory available per machine, we show that: (1) $Q$ can be computed in $O(n)$ rounds with $O(n\frac{(\mathrm{IN}^{\w} + \mathrm{OUT})^2}{M})$ communication cost. (2) $Q$ can be computed in $O(\log(n))$ rounds with $O(n\frac{(\mathrm{IN}^{\max(\w, 3\iw)} + \mathrm{OUT})^2}{M})$ communication cost. \end{itemize} Intersection width is a new notion of queries and generalized hypertree decompositions (GHDs) of queries we introduce to capture how connected the adjacent cyclic components of the GHDs are. We achieve our first result by introducing a distributed and generalized version of Yannakakis's algorithm, called GYM. GYM takes as input any GHD of $Q$ with width $\w$ and depth $d$, and computes $Q$ in $O(d + \log(n))$ rounds and $O(n\frac{(\mathrm{IN}^{\w} + \mathrm{OUT})^2}{M})$ communication cost. We achieve our second result by showing how to construct GHDs of $Q$ with width $\max(\w, 3\iw)$ and depth $O(\log(n))$. We describe another technique to construct GHDs with longer widths and shorter depths, demonstrating a spectrum of tradeoffs one can make between communication and the number of rounds.

연구 동기 및 목표

  • 복잡한 쿼리(예: 체인 조인)에 대해 통신 비용이 지나치게 높아지는 단일 라운드 분산 조인 알고리즘의 비효율성을 해결하기 위해.
  • 계산 라운드 수를 늘임으로써 분산 조인 처리에서 통신 비용을 줄일 수 있는지 탐색하기 위해.
  • 특히 GHD의 넓이와 교차 넓이를 활용하여 쿼리의 구조적 특성을 이용해 통신 비용과 라운드 복잡도의 균형을 이루는 일반 목적의 분산 조인 알고리즘을 개발하기 위해.
  • 클러스터 구성에 맞게 성능을 조정할 수 있도록 깊이(라운드 수)와 넓이(통신 비용) 간의 트레이드오프를 고려한 GHD를 구성하기 위해.

제안 방법

  • GYM은 쿼리의 임의의 일반화된 하이퍼트리 분해(GHD)를 사용하여 Yannakakis의 알고리즘을 분산 및 다중 라운드 실행으로 일반화한다.
  • 알고리즘은 다중 라운드 동안 GHD 트리를 하향식으로 처리하며, 머신에 중간 결과를 유지하고 데이터 샤딩을 통해 통신을 최소화한다.
  • 교차 넓이(iw)는 GHD의 인접한 구성 요소 간의 연결성을 캡처하는 새로운 구조적 지표로, 더 엄밀한 통신 비용 상한선을 가능하게 한다.
  • Log-GTA와 C-GTA는 제안된 GHD 구축 알고리즘으로, Log-GTA는 넓이 증가를 제한(최대(w, 3iw))하면서 깊이를 O(log n)으로 줄이며, C-GTA는 넓이 증가가 지수적일 수 있지만 일정 깊이의 GHD를 가능하게 한다.
  • 통신 비용은 각 머신당 M = Ω(IN¹/ϵ) 메모리가 있다고 가정하는 확률 모델을 사용하여 분석하며, 높은 확률 보장을 제공한다.
  • 프레임워크는 자기조인을 포함한 완전한 동치조인을 지원하며, 입력 분포의 편향이 없다고 가정하며, 주로 통신 비용과 라운드 효율성을 비용 지표로 삼는다.

실험 결과

연구 질문

  • RQ1다중 라운드 알고리즘이 단일 라운드 방법에 비해 분산 시스템에서 동치조인의 통신 비용을 크게 줄일 수 있는가?
  • RQ2라운드 수가 분산 동치조인 평가의 통신 비용에 어떤 영향을 미치는가?
  • RQ3쿼리의 어떤 구조적 특성—특히 GHD의 넓이와 교차 넓이—를 활용하여 통신 비용과 라운드 복잡도를 최적화할 수 있는가?
  • RQ4깊이(라운드 수)와 넓이(통신 비용) 간의 트레이드오프를 노출하는 GHD 구축 알고리즘을 설계할 수 있는가?
  • RQ5단일 라운드 모델에서 Yannakakis의 알고리즘의 단순한 변형을 통해 유계 넓이를 가진 동치조인에 대해 NC-복잡도를 달성할 수 있는가?

주요 결과

  • GYM은 n개의 관계, 입력 크기 IN, 출력 크기 OUT, 넓이 w를 가진 임의의 동치조인 쿼리 Q를 O(n)라운드 내에서 O(n(INw + OUT)²/M)의 통신 비용으로 높은 확률로 계산한다.
  • 넓이가 max(w, 3iw)이고 깊이가 O(log n)인 GHD를 사용함으로써, GYM은 라운드 수를 O(log n)으로 줄였고, 통신 비용을 O(n(IN·max(w,3iw) + OUT)²/M)로 증가시켰다.
  • 교차 넓이 iw는 GHD의 인접 구성 요소 간의 연결성을 캡처하는 새로운 지표로, 더 엄밀한 통신 비용 상한선을 가능하게 한다.
  • Log-GTA는 깊이 O(log n)와 최대 max(w, 3iw)의 넓이를 가지는 GHD를 생성하여, 제한된 통신 오버헤드로 O(log n)-라운드 실행을 가능하게 한다.
  • C-GTA는 i번 반복 후 최대 2^i·max(w, 3iw)의 넓이를 가지는 일정 깊이의 GHD를 생성하여, 깊이와 넓이 간의 추가 트레이드오프를 가능하게 한다.
  • Log-depth GHD를 사용해 PRAM에서 GYM을 시뮬레이션하면, 모든 유계 넓이 동치조인은 O(log n) 시간 내에 다항식 수의 프로세서로 평가 가능하며, 이는 NC 복잡도 클래스에 속함을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.