Skip to main content
QUICK REVIEW

[논문 리뷰] Distributed Learning with Compressed Gradient Differences

Konstantin Mishchenko, Eduard Gorbunov|arXiv (Cornell University)|2019. 01. 26.
Stochastic Gradient Optimization Techniques참고 문헌 18인용 수 108
한 줄 요약

DIANA 알고리즘을 도입합니다. 이는 분산 학습에서 그래디언트 차이를 압축하며, 강하게 볼록한 설정과 비볼록 설정에서 이론적 수렴 보장을 제공하고 QSGD 및 TernGrad와의 실험적 비교를 수행합니다.

ABSTRACT

Training large machine learning models requires a distributed computing approach, with communication of the model updates being the bottleneck. For this reason, several methods based on the compression (e.g., sparsification and/or quantization) of updates were recently proposed, including QSGD (Alistarh et al., 2017), TernGrad (Wen et al., 2017), SignSGD (Bernstein et al., 2018), and DQGD (Khirirat et al., 2018). However, none of these methods are able to learn the gradients, which renders them incapable of converging to the true optimum in the batch mode. In this work we propose a new distributed learning method -- DIANA -- which resolves this issue via compression of gradient differences. We perform a theoretical analysis in the strongly convex and nonconvex settings and show that our rates are superior to existing rates. We also provide theory to support non-smooth regularizers study the difference between quantization schemes. Our analysis of block-quantization and differences between $\ell_2$ and $\ell_{\infty}$ quantization closes the gaps in theory and practice. Finally, by applying our analysis technique to TernGrad, we establish the first convergence rate for this method.

연구 동기 및 목표

  • 대규모 모델의 분산 최적화에서 통신 병목 현상을 해결한다.
  • 참 최적점으로의 수렴을 보존하는 압축 기반 방법을 개발한다.
  • 강하게 볼록하고 비볼록한 설정 모두에서 이론적 보장을 제공한다.
  • 비매끄러운 정규화항을 다루고 블록 양자화와 차원 기반 양자화를 분석한다.
  • QSGD, TernGrad, DQGD와 같은 기존 압축 스킴과의 비교를 제공한다.

제안 방법

  • 통신을 줄이기 위해 전체 그래디언트가 아니라 그래디언트 차이만을 압축하는 DIANA를 제안한다.
  • 각 워커에서 최적점의 그래디언트를 학습하도록 기억 벡터 h_i^k를 도입하고 차이가 0으로 수렴하도록 한다.
  • 제한된 분산을 가지는 비편향 확률적 그래디언트 g_i^k를 사용하고 Δ_i^k = g_i^k − h_i^k로 차이 벡터를 구성한다.
  • Δ_i^k에 p-양자화를 적용하여 서버로 전송되는 압축 업데이트를 얻는다.
  • 양자화된 업데이트를 집계해 전역 방향을 형성하고 모멘텀(v^k)을 사용한 근접 경사(프로시멀) 스텝을 수행한다.
  • 블록 양자화를 포함하는 프레임워크를 제공하고 양자화에 대한 서로 다른 p-노름(p ≥ 1)의 영향을 분석한다.

실험 결과

연구 질문

  • RQ1분산 설정에서 이질적 데이터가 존재할 때 그래디언트 차이 압축이 참 최적점으로의 수렴을 보장할 수 있는가?
  • RQ2매끄러움 및 규제 가정 하에 강하게 볼록 및 비볼록 체제에서 DIANA의 수렴 속도는 어느 정도인가?
  • RQ3다른 양자화 방식(p-양자화, 블록 양자화)이 통신 및 수렴에 어떤 영향을 미치는가?
  • RQ4DIANA가 이론적 및 실험적 측면에서 QSGD 및 TernGrad 같은 기존 압축 업데이트 방법과 어떤 차이가 있는가?
  • RQ5비매끄러운 정규화항과 모멘텀의 수렴성과 실용성에 미치는 영향은 무엇인가?

주요 결과

  • DIANA는 강하게 볼록하고 비볼록 목적 함수 모두에서 기존 압축 기반 방법과 비교되거나 우수한 수렴 속도를 달성한다.
  • 최적점의 그래디언트 학습을 위한 기억 차원으로의 도입으로, 압축에도 불구하고 참 최적점으로의 학습이 가능하다.
  • 블록 양자화 및 더 큰 p-노름(p = ∞ 등)이 적절한 매개변수 선택 아래 수렴을 해치지 않으면서 통신을 감소시킬 수 있다.
  • 해당 분석은 Terngrad(TernGrad)와 1-비트 QSGD에 대한 새로운 수렴 보장을 넓은 가정 하에서 제공한다.
  • 실험적으로 모멘텀을 가진 DIANA가 로지스틱 회귀 및 CIFAR-10 설정에서 일반적으로 QSGD, TernGrad, DQGD보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.