Skip to main content
QUICK REVIEW

[논문 리뷰] GADMM: Fast and Communication Efficient Framework for Distributed Machine Learning

Anis Elgabli, Jihong Park|arXiv (Cornell University)|2019. 08. 30.
Indoor and Outdoor Localization Technologies참고 문헌 55인용 수 49
한 줄 요약

GADMM은 작업자들을 두 그룹으로 나누는 이웃 간 분산 커뮤니케이션 체계를 도입하여 통신 오버헤드를 감소시키면서 빠른 수렴을 달성하고, 시간에 따라 변하는 네트워크에 대해 Dynamic GADMM으로 확장합니다.

ABSTRACT

When the data is distributed across multiple servers, lowering the communication cost between the servers (or workers) while solving the distributed learning problem is an important problem and is the focus of this paper. In particular, we propose a fast, and communication-efficient decentralized framework to solve the distributed machine learning (DML) problem. The proposed algorithm, Group Alternating Direction Method of Multipliers (GADMM) is based on the Alternating Direction Method of Multipliers (ADMM) framework. The key novelty in GADMM is that it solves the problem in a decentralized topology where at most half of the workers are competing for the limited communication resources at any given time. Moreover, each worker exchanges the locally trained model only with two neighboring workers, thereby training a global model with a lower amount of communication overhead in each exchange. We prove that GADMM converges to the optimal solution for convex loss functions, and numerically show that it converges faster and more communication-efficient than the state-of-the-art communication-efficient algorithms such as the Lazily Aggregated Gradient (LAG) and dual averaging, in linear and logistic regression tasks on synthetic and real datasets. Furthermore, we propose Dynamic GADMM (D-GADMM), a variant of GADMM, and prove its convergence under the time-varying network topology of the workers.

연구 동기 및 목표

  • 대규모 DML에서 통신 효율이 높은 분산 최적화의 필요성을 동기부여한다.
  • 개별 반복에서의 통신을 줄이는 분산 ADMM 기반 프레임워크(GADMM)를 제안한다.
  • 두 그룹, 두 이웃 간 커뮤니케이션 토폴로지에서 볼록 손실에 대해 최적해로의 수렴을 보장한다.
  • 네트워크 토폴로지가 시간에 따라 변하는 상황에서도 수렴을 유지하는 Dynamic GADMM(D-GADMM)를 도입한다.

제안 방법

  • 로컬 목적 함수 f_n과 전역 매개 변수 Theta를 갖는 합의 문제로 분산 학습을 공식화한다.
  • 두 그룹의 워커(head와 tail)로 분할하고 Theta_n = Theta_{n+1}를 두 이웃 간 커뮤니케이션으로 강제하여 GADMM을 개발한다.
  • 헤드 워커가 병렬로 업데이트하고 테일 워커가 반복을 마무리하도록 하는 증가형 라그랑지안과 업데이트 규칙을 도출하여 볼록 문제에 대한 수렴을 보장한다.
  • 프라이멀-듀얼 잔차와 Lyapunov 함수에 의해 볼록성 하에서 GADMM의 최적해로의 수렴을 증명한다.
  • D-GADMM으로 시간에 따라 변하는 네트워크에 프레임워크를 확장하고 이웃 관계를 주기적으로 새로고침하며 수렴 보장을 유지한다.

실험 결과

연구 질문

  • RQ1볼록 손실 함수에 대해 분산된 ADMM 기반 접근이 중앙집중식 ADMM과 동일한 최적성에 도달할 수 있는가?
  • RQ2중앙 조정 없이도 분산 환경에서 통신을 최소화하면서 수렴을 유지하는 방법은 무엇인가?
  • RQ3각 워커를 두 이웃으로 제한하는 것이 수렴 속도와 통신 오버헤드에 미치는 영향은 무엇인가?
  • RQ4네트워크 토폴로지가 시간에 따라 변하더라도 프레임워크가 수렴할 수 있는가?
  • RQ5이웃 연결을 무작위로 바꾸는(D-GADMM) 것이 정적 토폴로지에서 수렴 속도를 개선하는가?

주요 결과

  • GADMM은 두 이웃, 두 그룹 커뮤니케이션 패턴으로 볼록 손실 함수에 대한 최적해로 수렴한다.
  • 이 방법은 합리적인 중앙집중식 ADMM 및 LAG, 이중 평균화(Dual Averaging) 등과 비교했을 때, 합리적인 합의에서 합리적인 데이터에서의 선형 회귀 및 로지스틱 회귀 태스크에서 더 낮은 통신 오버헤드를 달성한다.
  • D-GADMM은 시간에 따라 변하는 네트워크로 확장되며 수렴 보장을 상속하고, 시간에 따른 연결 변화로 수렴 속도를 개선할 가능성이 있다.
  • 각 반복마다 일부 워커만이 통신하므로 완전히 중앙집중식 체계에 비해 업링크/다운링크 병목을 줄인다.
  • GADMM은 헤드 그룹과 테일 그룹 내에서 병렬 업데이트를 가능하게 하여, 희소한 커뮤니케이션에도 불구하고 실제 수렴 속도를 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.