Skip to main content
QUICK REVIEW

[논문 리뷰] Decentralized Stochastic Optimization and Gossip Algorithms with Compressed Communication

Anastasiia Koloskova, Sebastian U. Stich|arXiv (Cornell University)|2019. 02. 01.
Stochastic Gradient Optimization Techniques인용 수 185
한 줄 요약

Choco-SGD와 Choco-Gossip를 도입한 분산 SGD 및 가십 알고리즘으로, 압축된 통신을 사용하고, 편향/비편향 압축 및 다양한 네트워크 토폴로지에서 수렴 속도와 선형 합의(convergence) 를 증명한다.

ABSTRACT

We consider decentralized stochastic optimization with the objective function (e.g. data samples for machine learning task) being distributed over $n$ machines that can only communicate to their neighbors on a fixed communication graph. To reduce the communication bottleneck, the nodes compress (e.g. quantize or sparsify) their model updates. We cover both unbiased and biased compression operators with quality denoted by $ω\leq 1$ ($ω=1$ meaning no compression). We (i) propose a novel gossip-based stochastic gradient descent algorithm, CHOCO-SGD, that converges at rate $\mathcal{O}\left(1/(nT) + 1/(T δ^2 ω)^2 ight)$ for strongly convex objectives, where $T$ denotes the number of iterations and $δ$ the eigengap of the connectivity matrix. Despite compression quality and network connectivity affecting the higher order terms, the first term in the rate, $\mathcal{O}(1/(nT))$, is the same as for the centralized baseline with exact communication. We (ii) present a novel gossip algorithm, CHOCO-GOSSIP, for the average consensus problem that converges in time $\mathcal{O}(1/(δ^2ω) \log (1/ε))$ for accuracy $ε> 0$. This is (up to our knowledge) the first gossip algorithm that supports arbitrary compressed messages for $ω> 0$ and still exhibits linear convergence. We (iii) show in experiments that both of our algorithms do outperform the respective state-of-the-art baselines and CHOCO-SGD can reduce communication by at least two orders of magnitudes.

연구 동기 및 목표

  • 데이터가 고정된 그래프로 연결된 여러 노드에 분산되어 있는 분산 확률적 최적화를 조사한다.
  • 대역폭 병목 현상을 완화하기 위해 압축 업데이트를 사용하는 통신 효율적 알고리즘을 개발한다.
  • 네트워크 토폴로지와 압축 품질을 활용하면서도 주요 항에서 중심화된 미니배치 SGD와 일치하는 수렴 보장을 확립한다.

제안 방법

  • Choco-SGD를 제안하는데, 압축 통신을 갖춘 가십 기반의 분산 SGD로, 강하게 볼록한 목적함수에 대해 속도 O(1/(nT) + 1/(T δ^2 ω)^2)을 달성한다.
  • Choco-Gossip를 도입하여 임의의 압축에 대한 평균 합의 가십 알고리즘을 제시하고 선형 수렴 속도 O(1/(δ^2 ω) log(1/ε))를 증명한다.
  • 편향 및 비편향 압축 연산자 모두 ω ≤ 1로 특징지어지며, ω = 1은 압축이 없음을 나타낸다.
  • 가장 중요한 항에서 중심화된 미니배치 SGD와 일치하는 첫 분산형 수렴 분석을 제공한다.
  • 네트워크 토폴로지(δ를 통해)와 압축(ω를 통해)이 수렴 속도의 고차항에만 영향을 미친다는 것을 보여준다.
  • Choco-SGD와 Choco-Gossip가 이론적으로 및 실험적으로 최첨단 기준선(ECD-SGD, DCD-SGD)을 능가하고 통신을 크게 줄이는 것을 입증한다.

실험 결과

연구 질문

  • RQ1압축과 네트워크 토폴로지에도 불구하고 분산 확률적 최적화가 중심화된 미니배치 SGD와 동일한 선도 차수를 달성할 수 있는가?
  • RQ2압축 품질(ω)과 네트워크 연결성(δ)이 분산 SGD 및 가십 알고리즘의 수렴 속도에 어떤 영향을 미치는가?
  • RQ3편향 압축을 지원하면서도 진정한 해(solution)로의 수렴을 보존하는 가십 및 SGD 체계를 설계할 수 있는가?
  • RQ4Choco-SGD 및 Choco-Gossip의 실용적 구현이 통신 제약 하에서 기존의 분산 방법보다 경험적으로 이점을 제공하는가?

주요 결과

  • Choco-SGD는 강하게 볼록한 목적함수에 대해 속도 O(1/(nT) + 1/(T δ^2 ω)^2)로 수렴하여 중심화된 미니배치 SGD의 선도 항과 일치한다.
  • Choco-Gossip은 압축 통신하에 평균 합의에 대해 선형 수렴을 보이며 속도는 O(1/(δ^2 ω) log(1/ε))이다.
  • Choco-SGD의 첫 번째 항 O(1/(nT))은 압축 품질과 네트워크 연결성에 상관없이 보존되어 중심화된 성능을 모방한다.
  • 실험에서 Choco-SGD와 Choco-Gossip는 최첨단 기준선(ECD-SGD, DCD-SGD)을 능가하고, Choco-SGD는 통신 감소를 크게 달성한다.
  • Choco-Gossip는 ω>0에 대해 임의의 압축 메시지를 지원하고 선형 수렴을 달성하는 반면, 기존 방법은 거의 완벽한 양자화를 필요로 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.