QUICK REVIEW

[논문 리뷰] LAG: Lazily Aggregated Gradient for Communication-Efficient Distributed Learning

Tianyi Chen, Georgios B. Giannakis|arXiv (Cornell University)|2018. 05. 24.

Stochastic Gradient Optimization Techniques인용 수 198

한 줄 요약

LAG는 분산 학습에서 지연된(느리게 재사용된) 그래디언트를 도입하여 통신을 줄이고, 이질적 데이터 설정에서 통신 라운드를 낮추는 한편 배치 경사하강법과 유사한 수렴 속도를 달성한다.

ABSTRACT

This paper presents a new class of gradient methods for distributed machine learning that adaptively skip the gradient calculations to learn with reduced communication and computation. Simple rules are designed to detect slowly-varying gradients and, therefore, trigger the reuse of outdated gradients. The resultant gradient-based algorithms are termed Lazily Aggregated Gradient --- justifying our acronym LAG used henceforth. Theoretically, the merits of this contribution are: i) the convergence rate is the same as batch gradient descent in strongly-convex, convex, and nonconvex smooth cases; and, ii) if the distributed datasets are heterogeneous (quantified by certain measurable constants), the communication rounds needed to achieve a targeted accuracy are reduced thanks to the adaptive reuse of lagged gradients. Numerical experiments on both synthetic and real data corroborate a significant communication reduction compared to alternatives.

연구 동기 및 목표

다수의 워커가 있는 분산 학습에서 통신 효율적인 경사 방법을 동기 부여하고 개발한다.
수렴에 해를 끼치지 않으면서 매 이터레이션의 통신량을 줄이기 위해 느린(지연된) 그래디언트 집계를 도입한다.
볼록성, 강볼록성 및 비볼록 매끄러운 조건하에서 이론적 수렴 보장을 제공한다.
이질적인 데이터 설정에서의 통신 절감량을 정량화하고 LAG가 표준 GD를 능가하는 시점을 식별한다.

제안 방법

수정이 크지 않으면 워커로부터의 낡은 그래디언트를 재사용하여 GD 스텝의 느린 업데이트로 LAG를 형식화한다.
LAG 이터레이션을 ∇^k = ∇^{k-1} + ∑_{m∈M^k} δ∇^k_m 로 업데이트하는 방식으로 정의하며, δ∇^k_m = ∇L_m(θ^k) − ∇L_m(hatθ_m^{k-1})이다.
두 가지 구현 변형을 제안한다: LAG-WK(워커가 업데이트 전송 시점을 결정)와 LAG-PS(서버가 어떤 워커가 통신할지 결정).
LAG에 대한 하강 보조정리(Lemma 1 및 Lemma 2)를 도출하고 수렴 분석을 위한 Lyapunov 함수 V^k를 설정한다.
이터레이션 및 통신 복잡도 결과를 제시하고 이질적 설정에서 C_LAG(ε) < C_GD(ε)가 되는 조건을 보인다.
통신과 수렴의 균형을 맞추기 위한 그래디언트와 최근 이터레이트를 기반의 실용적 트리거 규칙(LAG-WK 조건과 LAG-PS 조건)을 논의한다.

실험 결과

연구 질문

RQ1느린 그래디언트 집계가 볼록, 강볼록, 비볼록 매끄러운 설정에서 배치 GD와 유사한 수렴 속도를 달성할 수 있는가?
RQ2전통적 GD에 비해 어떤 이질성 조건에서 LAG가 통신 라운드를 줄이는가?
RQ3제안된 트리거 규칙이 매 이터레이션 하강 및 전체 통신 복잡도에 어떤 영향을 미치는가?
RQ4데이터 이질성의 영향은 이질성 점수 h(γ)에 의해 LAG의 성능에 어떤 영향을 미치는가?

주요 결과

LAG는 강볼록, 볼록 및 비볼록 매끄러운 경우에 배치 GD와 같은 순서의 수렴 속도를 달성한다.
이질적 데이터 설정에서 지연된 그래디언트를 재사용하여 통신 라운드를 크게 줄일 수 있다.
정량 가능한 통신 복잡도 경계는 충분한 비율의 워커가 작은 로컬 매끄러움 L_m를 가질 때 C_LAG(ε) < C_GD(ε) 가능성을 보인다.
두 가지 실용적 변형(LAG-WK 및 LAG-PS)은 서로 다른 통신 전략으로 비슷한 수렴 보장을 제공합니다.
실험 결과는 대안들에 비해 상당한 통신 감소를 나타내어 이론적 이점을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.