QUICK REVIEW

[논문 리뷰] Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent

Xiangru Lian, Ce Zhang|arXiv (Cornell University)|2017. 05. 25.

Stochastic Gradient Optimization Techniques참고 문헌 40인용 수 406

한 줄 요약

본 논문은 분산 병렬 SGD(D-PSGD)를 분석하고 바쁜 노드에서 더 낮은 통신으로 유사한 수렴을 달성할 수 있으며, 저대역폭 또는 고지연 네트워크에서 중앙집중식 PSGD(C-PSGD)를 능가할 수 있음을 보여준다; 실험 결과는 특정 설정에서 최대 10배의 속도 향상을 검증한다.

ABSTRACT

Most distributed machine learning systems nowadays, including TensorFlow and CNTK, are built in a centralized fashion. One bottleneck of centralized algorithms lies on high communication cost on the central node. Motivated by this, we ask, can decentralized algorithms be faster than its centralized counterpart? Although decentralized PSGD (D-PSGD) algorithms have been studied by the control community, existing analysis and theory do not show any advantage over centralized PSGD (C-PSGD) algorithms, simply assuming the application scenario where only the decentralized network is available. In this paper, we study a D-PSGD algorithm and provide the first theoretical analysis that indicates a regime in which decentralized algorithms might outperform centralized algorithms for distributed stochastic gradient descent. This is because D-PSGD has comparable total computational complexities to C-PSGD but requires much less communication cost on the busiest node. We further conduct an empirical study to validate our theoretical analysis across multiple frameworks (CNTK and Torch), different network configurations, and computation platforms up to 112 GPUs. On network configurations with low bandwidth or high latency, D-PSGD can be up to one order of magnitude faster than its well-optimized centralized counterparts.

연구 동기 및 목표

분산 SGD에서 분산 통신이 중앙집중식 설정을 이길 수 있는지 동기를 부여하고 평가한다.
총 최적화 노력 측면에서 D-PSGD가 C-PSGD에 비견되거나 이를 능가하는 지대를 식별하는 이론적 분석을 제공한다.
프레임워크(CNTK, Torch), 네트워크 구성, 대형 GPU 클러스터를 대상으로 이론을 실험적으로 검증한다.
실세계 배치에서 실용적인 속도향상과 통신 패턴을 정량화한다.

제안 방법

연결된 분산 네트워크에서 분산 병렬 확률적 경사 하강법(D-PSGD)을 제시한다.
문제를 f(x)=1/n sum_i Eξ~Di Fi(x; ξ)로 정의하고 이를 최소화하는 문제를 모델링하며 대칭 이중 확률적 가중치 행렬 W를 사용해 토폴로지를 인코딩한다.
업데이트 규칙 X_{k+1} = X_k W - γ ∂F(X_k; ξ_k)를 보이고 경사의 유계성이나 정의역의 가정 없이 수렴성을 분석한다.
개인 노드당 통신을 O(Deg(network))로 줄이면서 C-PSGD와 유사한 수렴 속도를 나타내는 수렴 경계(bound)를 도출한다.
노드 수 증가에 따른 선형 속도 향상이 K의 반복 수와 네트워크 고유 특성에 대한 조건을 제시한다.
표 1에서 C-PSGD와 D-PSGD의 계산 복잡도와 통신 복잡도를 비교한다.

실험 결과

연구 질문

RQ1수렴 및 총 계산 노력 측면에서 분산 PSGD가 중앙집중식 PSGD와 일치하거나 이를 능가하는 조건은 무엇인가?
RQ2통신 패턴과 네트워크 토폴로지가 D-PSGD의 수렴 및 속도 향상에 어떻게 영향을 미치는가?
RQ3노드 수가 증가함에 따라 분산 알고리즘이 선형 속도향상을 달성할 수 있는가, 그리고 실제 한계는 무엇인가?
RQ4프레임워크, 네트워크 구성, 하드웨어 규모에 걸쳐 D-PSGD와 C-PSGD를 실험적으로 어떻게 비교할 수 있는가?
RQ5네트워크 대역폭과 지연이 분산형 대 중앙집중형 접근 방식의 상대 성능에 어떠한 영향을 미치는가?

주요 결과

알고리즘	통신 복잡도	계산 복잡도
C-PSGD (mini-batch SGD)	O(n)	O(n/ϵ + 1/ϵ^2)
D-PSGD	O(Deg(network))	O(n/ϵ + 1/ϵ^2)

D-PSGD는 C-PSGD와 비견될 수 있는 수렴 속도를 달성하며, 총 계산 복잡도는 비슷하지만 가장 바쁜 노드의 통신은 감소한다.
노드 수가 증가함에 따라 D-PSGD는 계산 노력 측면에서 점근적 선형 속도향상을 보일 수 있다(K가 충분히 큰 경우).
저대역폭 또는 고지연 네트워크에서 D-PSGD는 잘 최적화된 중앙집중식 상대 방법에 비해 최대 약 10배 빠를 수 있다.
CNTK와 Torch를 아우르는 실험에서 최대 112개의 GPU 네트워크로, 통신이 제한된 환경에서 D-PSGD가 중앙집중식 방법을 능가하는 것을 보여준다.
D-PSGD의 각 반복당 통신 비용은 네트워크 차수에 따라 확장되며, C-PSGD의 O(n) 병목과 달리 희소 토폴로지(예: 링)에서 더 나은 확장성을 가능하게 한다.
실험 결과는 D-PSGD와 중앙집중식 접근 간에 비슷한 학습 손실 및 정확도 궤적을 보이며, D-PSGD가 더 적은 통신 오버헤드로 이를 달성한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.