Skip to main content
QUICK REVIEW

[논문 리뷰] A Fundamental Tradeoff between Computation and Communication in Distributed Computing

Songze Li, Mohammad Ali Maddah-Ali|arXiv (Cornell University)|2016. 04. 24.
Stochastic Gradient Optimization Techniques참고 문헌 42인용 수 29
한 줄 요약

이 논문은 Coded Distributed Computing (CDC)를 도입하여 분산 컴퓨팅에서 기본적인 계산-통신 간 상호보완 관계를 제안한다. 이는 Map 계산의 중복성을 증가시켜 통신 부하를 감소시키는 방식이다. r개의 노드에 걸쳐 Map 작업을 복제하고 중간 데이터에 코딩을 적용함으로써 CDC는 통신 부하를 요인 r만큼 감소시키며, 이는 정보이론적 하한선과 정확히 일치한다. 따라서 최적의 상호보완 관계를 정확히 규명한다.

ABSTRACT

How can we optimally trade extra computing power to reduce the communication load in distributed computing? We answer this question by characterizing a fundamental tradeoff between computation and communication in distributed computing, i.e., the two are inversely proportional to each other. More specifically, a general distributed computing framework, motivated by commonly used structures like MapReduce, is considered, where the overall computation is decomposed into computing a set of "Map" and "Reduce" functions distributedly across multiple computing nodes. A coded scheme, named "Coded Distributed Computing" (CDC), is proposed to demonstrate that increasing the computation load of the Map functions by a factor of $r$ (i.e., evaluating each function at $r$ carefully chosen nodes) can create novel coding opportunities that reduce the communication load by the same factor. An information-theoretic lower bound on the communication load is also provided, which matches the communication load achieved by the CDC scheme. As a result, the optimal computation-communication tradeoff in distributed computing is exactly characterized. Finally, the coding techniques of CDC is applied to the Hadoop TeraSort benchmark to develop a novel CodedTeraSort algorithm, which is empirically demonstrated to speed up the overall job execution by $1.97 imes$ - $3.39 imes$, for typical settings of interest.

연구 동기 및 목표

  • MapReduce 및 Spark와 같은 프레임워크에서 데이터 셔플링 과정에서 발생하는 높은 통신 오버헤드 문제를 해결하기 위해.
  • 코딩 기법이 네트워크 대역폭을 증가시키지 않고도 통신 부하를 감소시킬 수 있는지 조사하기 위해.
  • 분산 시스템에서 계산 부하(맵 단계)와 통신 부하(셔플링 단계) 사이의 기본 상호보완 관계를 규명하기 위해.
  • 계산과 통신 사이의 최적 균형을 달성하는 코딩 기반 기법을 설계하기 위해.
  • Hadoop TeraSort와 같은 실제 벤치마크를 통해 제안된 기법의 실용적 이점을 검증하기 위해.

제안 방법

  • r개의 노드에 걸쳐 복제를 통해 계산 부하를 r배로 증가시키는 Coded Distributed Computing (CDC) 프레임워크를 제안한다.
  • 중복된 중간 값의 특성을 활용해 멀티캐스팅을 가능하게 하고 통신 부하를 요인 r만큼 감소시키는 코딩된 셔플링 전략을 설계한다.
  • 입력 파일과 중간 데이터의 구조적 배치를 통해 노드 간에 코딩 기회를 창출한다.
  • 통신 부하를 r의 함수로 기술하고, 최소 달성 가능한 부하에 대한 정보이론적 하한선을 유도한다.
  • Hadoop TeraSort 벤치마크에 CDC 기법을 적용하여 코딩 기반의 CodedTeraSort 알고리즘을 개발한다. 이는 실행 속도 향상을 위해 코딩을 활용한다.
  • 심지어 임의의 데이터 배치(예: HDFS 복제)를 사용하더라도 코딩된 셔플링이 최적의 CDC 설계에 근접한 성능을 달성함을 입증하여 내구성을 입증한다.

실험 결과

연구 질문

  • RQ1계산 중복성을 활용함으로써 코딩 기법이 분산 컴퓨팅에서 통신 부하를 감소시킬 수 있는가?
  • RQ2분산 시스템에서 계산 부하와 통신 부하 사이의 기본 상호보완 관계는 무엇인가?
  • RQ3주어진 계산 부하에 대해 통신 부하의 정보이론적 하한선을 정확히 달성하는 코딩 기반 기법이 존재하는가?
  • RQ4제안된 CDC 기법은 TeraSort와 같은 실제 워크로드에 효과적으로 적용될 수 있는가?
  • RQ5기존 스토리지 시스템(예: HDFS)의 데이터 중복성은 명시적 데이터 배치 제어 없이도 실용적인 코딩된 셔플링을 가능하게 하는가?

주요 결과

  • Map 계산 부하를 r배로 증가시킬 경우, CDC 기법은 통신 부하를 요인 r만큼 감소시키며, 이는 정보이론적 하한선과 정확히 일치한다.
  • 최적의 계산-통신 상호보완 관계가 정확히 규명되었으며, 제안된 기법이 정보이론적으로 최적임을 증명한다.
  • CDC 기반의 CodedTeraSort 알고리즘은 일반적인 Hadoop 클러스터 환경에서 작업 실행 속도를 1.97배에서 3.39배로 가속화한다.
  • 심지어 임의의 데이터 배치(예: HDFS 스타일 복제)를 사용하더라도 코딩된 셔플링이 최적의 CDC 설계에 근접한 통신 부하를 달성한다.
  • 이 프레임워크는 계층적 네트워크 토폴로지 및 엣지/안개 컴퓨팅 환경으로 확장 가능하며, 코딩을 통해 대역폭과 지연 시간을 감소시킬 수 있다.
  • 결과적으로 코딩은 분산 및 엣지 컴퓨팅에서 변혁적 도구가 될 수 있으며, 확장 가능하고 저지연 컴퓨팅을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.