QUICK REVIEW

[논문 리뷰] Understanding Top-k Sparsification in Distributed Deep Learning

Shaohuai Shi, Xiaowen Chu|arXiv (Cornell University)|2019. 11. 20.

Stochastic Gradient Optimization Techniques참고 문헌 32인용 수 67

한 줄 요약

이 논문은 분산 SGD에서 오류 보상과 함께 Top-k 그래디언트 희소화를 분석하고, 벨 형태의 그래디언트 분포 하에서 Top-k 연산자에 대한 더 촘촘한 경계를 도출하며, 수렴을 보존하면서 GPU 계산 속도를 높이는 Gaussian-k 근사 Top-k 방법을 제안한다.

ABSTRACT

Distributed stochastic gradient descent (SGD) algorithms are widely deployed in training large-scale deep learning models, while the communication overhead among workers becomes the new system bottleneck. Recently proposed gradient sparsification techniques, especially Top-$k$ sparsification with error compensation (TopK-SGD), can significantly reduce the communication traffic without an obvious impact on the model accuracy. Some theoretical studies have been carried out to analyze the convergence property of TopK-SGD. However, existing studies do not dive into the details of Top-$k$ operator in gradient sparsification and use relaxed bounds (e.g., exact bound of Random-$k$) for analysis; hence the derived results cannot well describe the real convergence performance of TopK-SGD. To this end, we first study the gradient distributions of TopK-SGD during the training process through extensive experiments. We then theoretically derive a tighter bound for the Top-$k$ operator. Finally, we exploit the property of gradient distribution to propose an approximate top-$k$ selection algorithm, which is computing-efficient for GPUs, to improve the scaling efficiency of TopK-SGD by significantly reducing the computing overhead. Codes are available at: \url{https://github.com/hclhkbu/GaussianK-SGD}.

연구 동기 및 목표

TopK-SGD가 보수적인 이론적 경계에도 불구하고 실제로 왜 잘 수렴하는지 조사한다.
다양한 모델과 과제에서 TopK-SGD 학습 중 그래디언트 분포를 특징화한다.
기존의 k/d 경계보다 더 촘촘한 수축 경계인 Top-k 연산자에 대한 도출를 제시한다.
수렴을 보존하는 효율적인 근사 Top-k 선택 알고리즘을 제안한다.
제안된 Gaussian_k 방법을 GPU 클러스터에서 엔드투엔드 학습 속도 향상으로 시연한다.

제안 방법

여러 모델과 과제에서 로컬 확률적 그래디언트 좌표를 경험적으로 연구하고 벨 형태의 분포를 관찰한다.
벨 형태의 볼록한 π^2 분포 하에서 ||u - Top_k(u)||^2 <= (1 - k/d)^2 ||u||^2 와 같은 더 촘촘한 경계를 도출한다.
수렴 분석을 위한 실용적 델타 매개변수로 경계를 변환한다: δ = (2kd - k^2)/d^2.
Gaussian_k: GPU에서 임계값 선택을 효율적으로 수행하도록 그래디언트 분포를 Gaussian 유사하게 활용한 Top_k의 근사화 방법을 제안한다.
Gaussian_k를 Top_k, DGC_k, 및 Trimmed_topk와의 계산 시간 및 스케일링 측면에서 비교 벤치마크한다.
CIFAR10 및 ImageNet에서 GaussianK-SGD의 수렴을 검증하고 정확도를 TopK-SGD 및 Dense-SGD와 비교한다.

실험 결과

연구 질문

RQ1왜 TopK-SGD가 Dense-SGD에 비해 일반적인 희소화 경계가 약하더라도 거의 같은 수준으로 수렴하는가?
RQ2학습 중 그래디언트 좌표 분포가 k/d보다 더 촘촘한 Top-k 수축 경계를 지지하는가?
RQ3Gaussian 유사 그래디언트에 정렬된 근사 Top-k 연산자가 GPU 계산을 가속하면서도 수렴을 손상시키지 않는가?
RQ4대규모 데이터셋과 GPU에서 Gaussian_k를 채택했을 때 엔드투엔드 학습 속도 향상은 어느 정도인가?

주요 결과

TopK-SGD는 여러 모델에서 Dense-SGD에 가까운 수렴성을 보이는 반면 RandK-SGD는 ImageNet과 같은 데이터셋에서 수렴하지 못할 수 있다.
TopK-SGD 하의 그래디언트 좌표는 벨 형태(가우시안 유사) 분포를 보이며 많은 값이 0에 가깝게 분포되어 더 촘촘한 분석을 가능하게 한다.
(1 - k/d)^2 를 이용한 이론적 경계는 이전의 (1 - k/d) 경계보다 더 촘촘한 수축을 제공하여 TopK-SGD의 더 빠른 실제 수렴을 설명한다.
Gaussian_k는 GPU 친화적인 Top-k 근사 선택을 제공하며 TopK-SGD와 비슷한 수렴성을 보이면서 엔드투엔드 학습이 크게 빨라진다.
GaussianK-SGD는 16-GPU 클러스터에서 10GbE 환경에서 Dense-SGD, TopK-SGD, DGC-SGD에 비해 각각 최대 2.33x, 3.63x, 1.51x의 속도 향상을 달성한다.
엔드투엔드 실험에서 GaussianK-SGD는 CIFAR10 및 ImageNet에서 거의 TopK-SGD 정확도를 유지하면서도 상당한 속도 향상을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.