[논문 리뷰] Local SGD Converges Fast and Communicates Little
본 논문은 Local SGD가 워커 수와 미니배치 크기에 대해 선형 속도향상을 달성하며, 볼록 문제에서 미니배치 SGD에 비해 의사소통 라운드를 최대 O(sqrt(T/(Kb)))의 비율로 줄임을 보인다.
Mini-batch stochastic gradient descent (SGD) is state of the art in large scale distributed training. The scheme can reach a linear speedup with respect to the number of workers, but this is rarely seen in practice as the scheme often suffers from large network delays and bandwidth limits. To overcome this communication bottleneck recent works propose to reduce the communication frequency. An algorithm of this type is local SGD that runs SGD independently in parallel on different workers and averages the sequences only once in a while. This scheme shows promising results in practice, but eluded thorough theoretical analysis. We prove concise convergence rates for local SGD on convex problems and show that it converges at the same rate as mini-batch SGD in terms of number of evaluated gradients, that is, the scheme achieves linear speedup in the number of workers and mini-batch size. The number of communication rounds can be reduced up to a factor of T^{1/2}---where T denotes the number of total steps---compared to mini-batch SGD. This also holds for asynchronous implementations. Local SGD can also be used for large scale training of deep learning models. The results shown here aim serving as a guideline to further explore the theoretical and practical aspects of local SGD in these applications.
연구 동기 및 목표
- 대규모 분산 SGD에서의 통신 병목 현상을 동기부여하고 해결한다.
- 워커가 독립적으로 진화하고 주기적으로 동기화되는 Local SGD를 분석한다.
- 로컬 업데이트의 평균화가 계산에서 선형 속도향상과 통신 라운드 감소를 낳는 것을 증명한다.
- 스텝 사이즈와 동기화 주기에 대한 실용적인 지침을 제공한다.
제안 방법
- 문제를 L-매끄럽고 mu-강강한 f를 갖는 유한합 볼록 최적화 문제로 모델링한다.
- b의 미니배치 크기로 K개의 병렬 SGD 시퀀스를 실행하고 매 H 반복마다 평균화로 동기화한다.
- 평균화를 통한 변동을 분석하고 평균화로 분산 감소를 보이는 가상 평균 시퀀스를 정의한다.
- 적절한 스텝 사이즈에서 평균화된 업데이트의 수렴 속도를 도출하고, 점근적으로 O(1/(KT B))의 거동을 보인다.
- 분산 감소를 반영하기 위해 sigma^2를 sigma^2/b로 대체하여 미니배치 Local SGD로 확장한다.
- 매 단계마다 동기화가 필요하지 않은 비동기 변형을 보이고, 대응하는 수렴 보장을 제시한다.
실험 결과
연구 질문
- RQ1로컬에서 진화한 SGD 시퀀스의 평균화가 단일 워커에서의 SGD 실행에 비해 선형 속도향상을 낳는가?
- RQ2통신 간격 H가 수렴에 어떤 영향을 미치며 계산과 통신 간의 trade-off를 정량화할 수 있는가?
- RQ3Local SGD가 통신 라운드를 줄이면서도 미니배치 SGD와 동일한 수렴 속도를 달성할 수 있는가, 그리고 미니배치 크기 b와 워커 수 K는 어떻게 상호 작용하는가?
- RQ4지연되거나 비동기 업데이트 하에서 비동기 Local SGD 스킴이 유사한 수렴 특성을 유지하는가?
주요 결과
- 로컬 SGD는 볼록 문제에 대해 워커 수 K와 로컬 미니배치 크기 b에서 선형 속도향상을 달성한다.
- 동기화 간격 H = O(sqrt(T/(Kb)))일 때, 방법은 점근적 수렴을 해치지 않으면서 의사소통 라운드를 최대 O(sqrt(T/(Kb)))의 비율로 줄인다.
- 평균화된 반복의 수렴 속도는 E[f(x̂_T)] - f* = O((G^2)/(mu b K T)) + 낮은 차수 항으로, 계산 측면에서 병렬 미니배치 SGD와 일치하면서 통신을 줄인다.
- 미니배치 로컬 SGD의 경우 분산 항이 sigma^2/b로 스케일링되어 b와 K에 대한 선형 속도향상을 보존한다 (속도는 대략 O(1/(KTb))).
- 제한된 지연 하에서 비동기 버전은 유사한 속도를 보이며, 엄격한 동기화 없이도 속도향상을 시사한다.
- 이론적 결과는 계산과 통신의 균형을 맞추기 위한 H 및 스텝사이즈 선택에 Practical guidelines를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.