QUICK REVIEW

[논문 리뷰] Asynchronous Decentralized Parallel Stochastic Gradient Descent

Xiangru Lian, Wei Zhang|arXiv (Cornell University)|2017. 10. 18.

Stochastic Gradient Optimization Techniques참고 문헌 52인용 수 68

한 줄 요약

AD-PSDG는 대기 없음, 비동기식 분산 SGD로, 최적 수렴 속도 O(1/√K)와 워커 수에 따른 선형 속도 향상을 달성하며, 이질적 환경에서 분산형 및 중앙 집중형 기준선보다 우수합니다.

ABSTRACT

Most commonly used distributed machine learning systems are either synchronous or centralized asynchronous. Synchronous algorithms like AllReduce-SGD perform poorly in a heterogeneous environment, while asynchronous algorithms using a parameter server suffer from 1) communication bottleneck at parameter servers when workers are many, and 2) significantly worse convergence when the traffic to parameter server is congested. Can we design an algorithm that is robust in a heterogeneous environment, while being communication efficient and maintaining the best-possible convergence rate? In this paper, we propose an asynchronous decentralized stochastic gradient decent algorithm (AD-PSGD) satisfying all above expectations. Our theoretical analysis shows AD-PSGD converges at the optimal $O(1/\sqrt{K})$ rate as SGD and has linear speedup w.r.t. number of workers. Empirically, AD-PSGD outperforms the best of decentralized parallel SGD (D-PSGD), asynchronous parallel SGD (A-PSGD), and standard data parallel SGD (AllReduce-SGD), often by orders of magnitude in a heterogeneous environment. When training ResNet-50 on ImageNet with up to 128 GPUs, AD-PSGD converges (w.r.t epochs) similarly to the AllReduce-SGD, but each epoch can be up to 4-8X faster than its synchronous counterparts in a network-sharing HPC environment. To the best of our knowledge, AD-PSGD is the first asynchronous algorithm that achieves a similar epoch-wise convergence rate as AllReduce-SGD, at an over 100-GPU scale.

연구 동기 및 목표

이질적 환경에서 중앙 병목 현상 없이 견고하고 확장 가능한 분산 학습을 촉진한다.
idle 시간 및 중앙 서버 병목 현상을 피하는 비동기식 분산 SGD를 설계한다.
최적 속도에서의 수렴을 입증하고 더 많은 워커에서의 선형 속도를 확립한다.
대규모 데이터 세트(ImageNet)에서 실험적으로 baselines 대비 실질적 속도 향상을 보여준다.

제안 방법

각 워커는 로컬 모델을 유지하고 미니배치에서 계산된 확률적 경사로 로컬 모델을 업데이트한다.
노드들은 비동기식 로컬 업데이트를 수행하고 이웃과 이중 확률적 행렬 W_k를 통해 랜덤하게 로컬 모델을 평균한다.
전역 업데이트는 X_{k+1}=X_k W_k - γ ∂g(Ẋ_k; ξ_k^{i_k}, i_k), 여기서 Ẋ_k = X_{k-τ_k}로 표기된 바운더리로 계산된 정체를 나타낸다.
교착 상태가 없는 대기 없는 구현은 이웃 평균화를 예약하기 위해 쌍대 그래프를 사용하고 전역 동기화를 피한다.
토폴로지 선택은 링 기반 및 다중 홉(로그레이듐) 연결을 포함하여 정보 확산과 견고성을 가속화한다.
이론적 분석은 Lipschitz 균등성, 한정된 분산, 스펙트럴 간극 ρ, 한정된 정체성 T를 가정하며 O(1/√K) 수렴 속도와 선형 속도 증가를 이끈다.

실험 결과

연구 질문

RQ1비central 매개변수 서버 없이 비동기식 분산 학습이 수렴 속도를 유지하며 경쟁력 있는 속도를 달성할 수 있는가?
RQ2이질적 환경에서 워커 수가 증가함에 따라 AD-PSGD가 선형 속도 향상을 실현하는가?
RQ3계산 속도 및 통신 속도의 이질성에 대한 알고리즘의 강건성은 어느 정도인가?

주요 결과

알고리즘은 최적의 O(1/√K) 속도로 수렴하며 SGD 및 D-PSGD와 일치한다.
AD-PSGD는 워커 수에 대해 선형 속도 향상을 달성한다.
실험적으로 AD-PSGD는 AllReduce-SGD, D-PSGD 및 A-PSGD를 능가하며 이질적 환경에서 종종 순서대로 큰 차이로 우수하다.
ImageNet에서 최대 128GPU에서 AD-PSGD는 에폭에 대해 AllReduce-SGD와 유사하게 수렴하지만, 네트워크 공유 HPC 환경에서 에폭당 소요 시간은 4–8배 빠를 수 있다.
동일한 네트워크를 공유하는 클러스터에서도 AD-PSGD는 런타임 기준으로 동기 baselines를 4배~8배 앞선다.
AD-PSDG는 느린 워커와 네트워크 링크에 대한 강건성을 보여주며 스트래글러의 영향을 국지화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.