QUICK REVIEW

[논문 리뷰] EF21: A New, Simpler, Theoretically Better, and Practically Faster Error Feedback

Peter Richtárik, Igor Sokolov|arXiv (Cornell University)|2021. 06. 09.

Stochastic Gradient Optimization Techniques참고 문헌 37인용 수 40

한 줄 요약

EF21은 분산 최적화에서 편향된 그래디언트 압축을 위한 Markov 기반 오류 피드백 메커니즘을 도입하여 표준 가정하에서 더 빠른 수렴을 달성하고 이전 EF 방법보다 실험적 성능이 더 좋다.

ABSTRACT

Error feedback (EF), also known as error compensation, is an immensely popular convergence stabilization mechanism in the context of distributed training of supervised machine learning models enhanced by the use of contractive communication compression mechanisms, such as Top-$k$. First proposed by Seide et al (2014) as a heuristic, EF resisted any theoretical understanding until recently [Stich et al., 2018, Alistarh et al., 2018]. However, all existing analyses either i) apply to the single node setting only, ii) rely on very strong and often unreasonable assumptions, such global boundedness of the gradients, or iterate-dependent assumptions that cannot be checked a-priori and may not hold in practice, or iii) circumvent these issues via the introduction of additional unbiased compressors, which increase the communication cost. In this work we fix all these deficiencies by proposing and analyzing a new EF mechanism, which we call EF21, which consistently and substantially outperforms EF in practice. Our theoretical analysis relies on standard assumptions only, works in the distributed heterogeneous data setting, and leads to better and more meaningful rates. In particular, we prove that EF21 enjoys a fast $O(1/T)$ convergence rate for smooth nonconvex problems, beating the previous bound of $O(1/T^{2/3})$, which was shown a bounded gradients assumption. We further improve this to a fast linear rate for PL functions, which is the first linear convergence result for an EF-type method not relying on unbiased compressors. Since EF has a large number of applications where it reigns supreme, we believe that our 2021 variant, EF21, can a large impact on the practice of communication efficient distributed learning.

연구 동기 및 목표

분산 및 과대매개변수화된 모델에서 효과적인 통신-효율적 최적화의 필요성을 동기 부여한다.
강한 가정 없이 이질적인 데이터에 적합한 새로운 오류 피드백 메커니즘을 개발한다.
표준 매끄러움과 하한성 가정 하에서 향상된 수렴 속도와 PL 조건에서의 선형 수렴 같은 이론적 보장을 확립한다.
노드가 원래 압축기와 Markov 압축기 중 더 나은 것을 적응적으로 선택하도록 하는 EF21+를 확장하여 성능을 향상시킨다.
합성 데이터와 딥 러닝 실험에서 고전적 EF에 대한 경험적 우수성을 입증한다.

제안 방법

Markov 압축기를 도입하여 시간이 지남에 따라 더 좋아지는 추정기를 생성하고 편향된 압축을 안정적으로 가능하게 한다.
EF21을 분산 최적화 방법으로 정의하고 각 노드가 로컬 그래디언트에 편향된 압축기를 적용하고 압축된 잔차를 통신하도록 한다.
표준 가정( L-매끄러움 및 하한성) 하에서 매끄러운 비볼록 목적함수에 대해 O(1/T) 수렴을 보인다.
EF21에 대해 Polyak-Lojasiewicz(PL) 조건에서의 선형 수렴을 보인다.
노드가 per-iteration마다 원래의 압축기와 Markov 압축기 중 더 나은 것을 선택하도록 하는 하이브리드인 EF21+를 제안한다.
확률적 그래디언트에 대한 확장과 원래 EF 방법과의 관계를 논의한다.

실험 결과

연구 질문

RQ1EF21이 unbiased한 압축기를 요구하지 않고도 표준 매끄러움 및 하한성 가정하에서 비볼록 수렴 속도를 더 빠르게 달성할 수 있는가?
RQ2EF21이 추가적인 unbiased 압축기에 의존하지 않고 PL 조건하에서 선형 수렴을 보이는가?
RQ3특히 이질적 데이터 분산에서 EF21이 고전적 오류 피드백(EF)와 실무적으로 어떻게 비교되는가?
RQ4EF21+ 변형이 노드별로 압축기 간의 선택을 적응적으로 수행하여 실용적인 이득을 제공하는가?
RQ5EF21을 확장하여 확률적 그래디언트 설정에서 이론적 보장을 유지할 수 있는가?

주요 결과

EF21은 표준 가정하에 매끄러운 비볼록 문제에 대해 O(1/T) 수렴 속도를 달성한다.
EF21은 Polyak-Lojasiewicz 조건을 만족하는 함수에 대해 빠른 선형 수렴 속도를 달성한다.
EF21+는 이론적 보장을 유지하면서 종종 노드별로 더 나은 압축기를 선택함으로써 실용적 성능을 개선한다.
합성 데이터 및 딥 러닝 벤치마크에서 EF21은 원래의 EF 방법보다 일관되고 현저하게 우수하게 수행하며 더 큰 학습률을 가능하게 한다.
분석은 표준 가정(L-매끄러움과 하한)만 필요하며 경계 그래디드나 반복종속 경계에 의존하지 않는다.
EF21과 EF21+는 논의된 적응을 통해 확률적 그래디언트 설정으로의 확장을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.