Skip to main content
QUICK REVIEW

[논문 리뷰] On Biased Compression for Distributed Learning

Aleksandr Beznosikov, Samuel Horváth|arXiv (Cornell University)|2020. 02. 27.
Stochastic Gradient Optimization Techniques참고 문헌 32인용 수 48
한 줄 요약

본 논문은 분산 학습을 위한 편향된 그래디언트 압축 연산자를 분석하고, 에러 피드백과 함께 선형 수렴을 증명하며 단일 노드 및 다중 노드 설정에서 편향된 압축기와 비편향된 압축기를 비교하고, 세 가지 편향 압축기 클래스와 새로운 연산자를 도입한다.

ABSTRACT

In the last few years, various communication compression techniques have emerged as an indispensable tool helping to alleviate the communication bottleneck in distributed learning. However, despite the fact biased compressors often show superior performance in practice when compared to the much more studied and understood unbiased compressors, very little is known about them. In this work we study three classes of biased compression operators, two of which are new, and their performance when applied to (stochastic) gradient descent and distributed (stochastic) gradient descent. We show for the first time that biased compressors can lead to linear convergence rates both in the single node and distributed settings. We prove that distributed compressed SGD method, employed with error feedback mechanism, enjoys the ergodic rate $O\left( δL \exp \left[-\frac{μK}{δL} ight] + \frac{(C + δD)}{Kμ} ight)$, where $δ\ge 1$ is a compression parameter which grows when more compression is applied, $L$ and $μ$ are the smoothness and strong convexity constants, $C$ captures stochastic gradient noise ($C=0$ if full gradients are computed on each node) and $D$ captures the variance of the gradients at the optimum ($D=0$ for over-parameterized models). Further, via a theoretical study of several synthetic and empirical distributions of communicated gradients, we shed light on why and by how much biased compressors outperform their unbiased variants. Finally, we propose several new biased compressors with promising theoretical guarantees and practical performance.

연구 동기 및 목표

  • 분산 학습에서 통신을 줄이는 도구로서 편향 압축을 동기 부여하고 형식화한다.
  • 세 가지 매개변수화된 편향 압축기 클래스를 도입하고 이를 비편향(U)와 연관시킨다.
  • 에러 피드백을 포함한 단일 노드 및 분산 설정에서 편향 그래디언트 방법의 수렴 보장을 확립한다.
  • 다양한 데이터 분포 하에서 편향 압축기가 비편향 상대를 능가하는 시점을 탐구한다.
  • 이론적 보장과 실용적 성능을 갖춘 새로운 편향 압축기를 제안한다.

제안 방법

  • 세 가지 편향 압축기 클래스를 정의: B^1(α,β), B^2(γ,β), B^3(δ)와 이를 비편향 U(ζ)와 관련시킨다.
  • 압축기 클래스 간의 동등성 및 스케일링 특성(정리 6)을 증명한다.
  • 단일 노드 설정에서 각 클래스에 대해 그래디언트 하강의 수렴 속도(정리 17–19, 표 1)를 도출한다.
  • 스케일링이 속도에 미치는 영향과 분포 가정 하에서 편향 대 비편향 성능 비교.
  • 에러 피드백을 포함한 분산 SGD로 분석을 확장하고 다양한 스케줄에 대해 ergodic 수렴 속도(정리 21, 표 2)를 제공한다.
  • 세 클래스로 분류하는 광범위한 편향 및 비편향 압축기들을 조사하고 분류한다(표 3).

실험 결과

연구 질문

  • RQ1편향 압축 연산자가 단일 노드 및 분산 설정에서 SGD/그래디언트 방법에 대해 선형 수렴을 달성할 수 있는가?
  • RQ2gradient entries의 다양한 통계 분포에서 편향 압축기가 비편향 것과 비교해 어떤 차이가 있는가?
  • RQ3표준 매끄럽고 강볼록 가정 하에서 편향 압축기의 구체적 수렴 속도와 복잡도는 무엇인가?
  • RQ4에러 피드백이 분산 학습에서 편향 압축기의 안정적 수렴을 어떻게 가능하게 하는가?
  • RQ5입증 가능한 보장과 실용적 효과를 가진 새로운 편향 압축기를 어떻게 설계할 수 있는가?

주요 결과

  • 편향 압축기는 에러 피드백과 결합될 때 단일 노드 및 분산 설정 모두에서 선형 수렴을 낼 수 있다.
  • 세 가지 편향 압축기 클래스가 정의되며, 각 정리에서 정확한 수렴 속도가 제시된다: 표 1은 각 클래스에서 CGD의 복잡도를 요약한다.
  • 에러 피드백이 있는 분산 SGD는 δ, μ, L, K에 따라 달라지는 속도로 ergodic 수렴을 달성한다(표 2).
  • 정리 6은 편향 클래스가 비편향 압축기를 어떻게 관계짓고 에뮬레이션할 수 있는지 보여 주며 매개변수 선택 및 스케일링을 안내한다.
  • 여러 새 편향 압축기가 제안되고 분류되며(표 3), 이론적 보장을 가진 실용적 대안을 제시한다.
  • 분석은 특정 그래디언트 분포 하에서 편향 압축기가 비편향 버전보다 실질적으로 우위를 보일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.