Skip to main content
QUICK REVIEW

[논문 리뷰] Upper and Lower Bounds on the Cost of a Map-Reduce Computation

Foto Afrati, Anish Das Sarma|arXiv (Cornell University)|2012. 06. 20.
Complexity and Algorithms in Graphs참고 문헌 18인용 수 19
한 줄 요약

이 논문은 일차 및 이차 라운드 map-reduce 계산에서 통신 비용(복제율)과 reducer 크기 간의 트레이드오프를 분석하기 위한 형식적 모델을 제안한다. 히든 거리, 삼각형 탐지, 행렬 곱셈과 같은 핵심 문제에 대해 날카러운 상한 및 하한을 도출하며, 특히 작은 reducer 크기에서 이차 라운드 알고리즘의 통신 비용이 일차 라운드 방법보다 크게 감소함을 보여준다.

ABSTRACT

In this paper we study the tradeoff between parallelism and communication cost in a map-reduce computation. For any problem that is not "embarrassingly parallel," the finer we partition the work of the reducers so that more parallelism can be extracted, the greater will be the total communication between mappers and reducers. We introduce a model of problems that can be solved in a single round of map-reduce computation. This model enables a generic recipe for discovering lower bounds on communication cost as a function of the maximum number of inputs that can be assigned to one reducer. We use the model to analyze the tradeoff for three problems: finding pairs of strings at Hamming distance $d$, finding triangles and other patterns in a larger graph, and matrix multiplication. For finding strings of Hamming distance 1, we have upper and lower bounds that match exactly. For triangles and many other graphs, we have upper and lower bounds that are the same to within a constant factor. For the problem of matrix multiplication, we have matching upper and lower bounds for one-round map-reduce algorithms. We are also able to explore two-round map-reduce algorithms for matrix multiplication and show that these never have more communication, for a given reducer size, than the best one-round algorithm, and often have significantly less.

연구 동기 및 목표

  • map-reduce 계산에서 통신 비용(복제율)과 reducer 크기 간의 트레이드오프를 형식화하기.
  • reducer 입력 크기를 기반으로 통신 비용의 하한을 도출하는 일반적인 프레임워크를 개발하기.
  • 기본적인 데이터 처리 문제에 대한 일차 및 이차 라운드 map-reduce 알고리즘의 성능을 분석하고 최적화하기.
  • 이차 라운드 알고리즘이 행렬 곱셈 및 유사 문제에서 일차 라운드 대비 상당히 낮은 통신 비용을 달성할 수 있음을 보여주기.
  • 클러스터 특성(예: 통신 속도 및 메모리 제한)에 기반해 최적의 알고리즘 구성 선택을 위한 이론적 기반 제공하기.

제안 방법

  • 입력을 키로 매핑하고, 각 reducer가 최대 크기 q(reducer 크기)로 제한된 입력 리스트를 처리하는 모델을 제안한다.
  • 복제율을 입력당 생성되는 키-값 쌍의 평균 수로 정의하여 통신 비용을 나타낸다.
  • reducer 크기 q가 분할 매개변수(예: 행렬 곱셈에서의 s 및 t)와 연결된 제약 조건 하에서 총 통신 비용을 최소화하기 위해 라그랑주 승수법를 사용한다.
  • 히든 거리, 삼각형 탐지, 행렬 곱셈의 세 문제에 모델을 적용하여 분석적 경계를 도출한다.
  • 행렬 곱셈의 경우, 일차 라운드 및 이차 라운드 방식을 비교하여 이차 라운드 방법이 통신 비용을 √q 배 감소시킴을 보여준다.
  • 기하학적 및 조합론적 추론을 사용하여 reducer 수와 커버된 출력 수를 근사하며, 특히 다차원 데이터 레이아웃에서 유의미하다.

실험 결과

연구 질문

  • RQ1최대 reducer 크기가 주어졌을 때, 일차 라운드 map-reduce 계산에서 통신 비용의 이론적 하한은 무엇인가?
  • RQ2히든 거리, 삼각형 탐지, 행렬 곱셈과 같은 문제에서 통신 비용은 reducer 크기에 따라 어떻게 변화하는가?
  • RQ3이차 라운드 map-reduce 알고리즘이 행렬 곱셈에서 일차 라운드 알고리즘보다 낮은 통신 비용을 달성할 수 있는가? 어떤 조건에서 가능한가?
  • RQ4이 문제들에 대해 상한 및 하한이 어떻게 비교되는가? 점근적으로 일치하는가?
  • RQ5통신 비용 + 계산 비용의 총 비용을 최소화하는 reducer 크기 및 복제율의 구성이 존재하는가?

주요 결과

  • 히든 거리 1의 경우, 통신 비용의 상한 및 하한이 정확히 일치하여 제안된 알고리즘이 최적임을 증명한다.
  • 삼각형 탐지 및 유사한 그래프 패턴 탐지 문제에서는 상한 및 하한이 상수 인자로만 다름으로써 근사 최적임을 나타낸다.
  • 행렬 곱셈의 경우, 이차 라운드 알고리즘이 총 통신 비용 $ \frac{4n^3}{\sqrt{q}} $을 달성하며, $ q < n^2 $일 경우 일차 라운드 방법보다 엄격히 낮다.
  • q < n^2 인 경우, 이차 라운드 방법은 일차 라운드 방법 대비 통신 비용을 $ \sqrt{q} $ 배 감소시키며, 특히 작은 q에서 개선 효과가 가장 크다.
  • 이차 라운드 행렬 곱셈의 최적 구성은 $ s = \sqrt{q} $ 및 $ t = \sqrt{q}/2 $일 때 발생하며, 이는 라그랑주 승수법를 통해 유도된다.
  • 분석 결과, 이차 라운드 알고리즘은 항상 최적의 일차 라운드 알고리즘보다 높은 통신 비용을 가지지 않으며, 특히 reducer 크기가 작을 경우 상당히 낮은 통신 비용을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.