Skip to main content
QUICK REVIEW

[논문 리뷰] Worst-Case Optimal Algorithms for Parallel Query Processing

Paul Beame, Paraschos Koutris|arXiv (Cornell University)|2016. 04. 07.
Complexity and Algorithms in Graphs참고 문헌 16인용 수 28
한 줄 요약

이 논문은 다수의 병렬 처리 모델(MPC)에서 병합 쿼리 처리를 위한 최악의 경우 최적 알고리즘을 제시하며, 통신 부하를 최적화하기 위해 새로운 쿼리 파라미터인 엣지 준포장 수(edge quasi-packing number)를 도입한다. 단일 라운드 및 다중 라운드 알고리즘에 대해 날카운 상한과 하한을 확립하고, 외부 메모리 모델과의 새로운 연결을 통해 조건부 쿼리에 대한 I/O 최적 알고리즘을 유도하며, 최근 결과를 복구하고 다항로그 요소를 포함하여 확장한다.

ABSTRACT

In this paper, we study the communication complexity for the problem of computing a conjunctive query on a large database in a parallel setting with $p$ servers. In contrast to previous work, where upper and lower bounds on the communication were specified for particular structures of data (either data without skew, or data with specific types of skew), in this work we focus on worst-case analysis of the communication cost. The goal is to find worst-case optimal parallel algorithms, similar to the work of [18] for sequential algorithms. We first show that for a single round we can obtain an optimal worst-case algorithm. The optimal load for a conjunctive query $q$ when all relations have size equal to $M$ is $O(M/p^{1/ψ^*})$, where $ψ^*$ is a new query-related quantity called the edge quasi-packing number, which is different from both the edge packing number and edge cover number of the query hypergraph. For multiple rounds, we present algorithms that are optimal for several classes of queries. Finally, we show a surprising connection to the external memory model, which allows us to translate parallel algorithms to external memory algorithms. This technique allows us to recover (within a polylogarithmic factor) several recent results on the I/O complexity for computing join queries, and also obtain optimal algorithms for other classes of queries.

연구 동기 및 목표

  • 데이터 왜곡에 영향을 받지 않는 MPC 모델에서 조건부 쿼리를 위한 최악의 경우 최적 병렬 알고리즘을 개발한다.
  • 최적의 통신 부하를 특성화하는 데 사용되는 새로운 쿼리 파라미터인 엣지 준포장 수(ψ*)를 규명한다.
  • 다중 라운드로의 프레임워크 확장 및 다양한 쿼리 클래스에 대한 최적성 확립.
  • MPC 모델과 외부 메모리 모델을 연결하여 병렬 알고리즘을 I/O 효율적인 알고리즘으로 변환할 수 있도록 한다.
  • 제안된 변환을 통해 최근의 조인 쿼리에 대한 I/O 복잡도 결과를 복구하고 일반화한다.

제안 방법

  • 최악의 경우 통신 부하를 결정하는 쿼리 선택도의 새로운 측정 척도로 엣지 준포장 수 ψ*를 도입한다.
  • 왜곡된 속성 값에 따라 할당 비율을 조정함으로써 데이터 왜곡에 적응하는 파rametric HyperCube 알고리즘을 제안한다.
  • ψ*를 사용하여 부하에 대한 날카운 상한과 하한을 증명함으로써 단일 라운드 최적성을 확립한다.
  • MPC 알고리즘을 외부 메모리 알고리즘으로 변환하는 시뮬레이션 기법을 적용하여, 라운드 복잡도와 부하를 유지한다.
  • 이 변환을 통해 삼각형 및 선형 쿼리에 대한 I/O 최적 알고리즘을 도출하며, 알려진 상한에 다항로그 요소 내에서 일치한다.
  • 총 I/O 비용을 근사하기 위해 초기화, 메모리 내 처리, 외부 저장소 쓰기의 세 단계로 나누어 I/O 비용을 분석한다.

실험 결과

연구 질문

  • RQ1자기 조인 없이 전체 조건부 쿼리를 계산하는 단일 라운드 MPC 알고리즘의 최악의 경우 통신 부하는 무엇인가?
  • RQ2엣지 준포장 수 ψ*는 엣지 포장 수와 엣지 커버 수와 같은 기존 쿼리 파라미터와 어떻게 관련이 있는가?
  • RQ3다양한 쿼리 클래스에 대해 다중 라운드에서 최악의 경우 최적 알고리즘을 설계할 수 있는가?
  • RQ4MPC 알고리즘을 체계적으로 I/O 효율적인 외부 메모리 알고리즘으로 변환할 수 있는가?
  • RQ5유도된 I/O 비용이 조건부 쿼리에 대해 기존 결과와 비교해 얼마나 일치하거나 향상되는가?

주요 결과

  • 단일 라운드에서 크기가 M인 모든 관계를 가진 조건부 쿼리 q에 대해 최적 부하는 O(M / p^{1/ψ*})이다. 여기서 ψ*는 엣지 준포장 수이다.
  • 엣지 준포장 수 ψ*는 엣지 포장 수와 엣지 커버 수와는 다릅니다. 이는 최악의 경우 부하를 더 날카롭게 특성화한다.
  • 다중 라운드에서는 삼각형 및 선형 쿼리와 같은 여러 쿼리 클래스에 대해 최적 알고리즘을 제시한다.
  • MPC에서 외부 메모리로의 변환은 알려진 최적 상한에 다항로그 요소 내에서 I/O 비용을 제공한다. 예를 들어 삼각형 쿼리의 경우 Õ(m^{3/2}/(BW^{1/2}))이다.
  • 이 방법은 선형 쿼리 L_k에 대해 이전 연구의 I/O 복잡도를 복구하며, Õ((m/W)^{⌈(k+1)/2⌉} · W/B)의 I/O 비용을 달성한다.
  • MPC와 외부 메모리 간의 연결은 향후 연구의 유망한 방향으로 역방향 시뮬레이션을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.