Skip to main content
QUICK REVIEW

[논문 리뷰] Communication-Efficient Distributed Blockwise Momentum SGD with Error-Feedback

Shuai Zheng, Ziyue Huang|arXiv (Cornell University)|2019. 05. 27.
Advanced Neural Network Applications참고 문헌 28인용 수 41
한 줄 요약

이 논문은 dist-EF-SGD 및 블록별 변형을 제시하여 에러 피드백과 모멘텀을 활용한 양방향 그래디언트 압축을 수행하고, 비볼록 문제에서 수렴 속도를 유지하면서 약 32x의 통신 감소를 달성하며 실무적으로 전체 정밀도 분산 SGD/SGDM과 일치한다.

ABSTRACT

Communication overhead is a major bottleneck hampering the scalability of distributed machine learning systems. Recently, there has been a surge of interest in using gradient compression to improve the communication efficiency of distributed neural network training. Using 1-bit quantization, signSGD with majority vote achieves a 32x reduction on communication cost. However, its convergence is based on unrealistic assumptions and can diverge in practice. In this paper, we propose a general distributed compressed SGD with Nesterov's momentum. We consider two-way compression, which compresses the gradients both to and from workers. Convergence analysis on nonconvex problems for general gradient compressors is provided. By partitioning the gradient into blocks, a blockwise compressor is introduced such that each gradient block is compressed and transmitted in 1-bit format with a scaling factor, leading to a nearly 32x reduction on communication. Experimental results show that the proposed method converges as fast as full-precision distributed momentum SGD and achieves the same testing accuracy. In particular, on distributed ResNet training with 7 workers on the ImageNet, the proposed algorithm achieves the same testing accuracy as momentum SGD using full-precision gradients, but with $46\%$ less wall clock time.

연구 동기 및 목표

  • 대규모 딥러닝에서 분산 SGD/SGDM의 커뮤니케이션 병목 현상을 동기화하고 해결한다.
  • 파라미터 서버 설정에서 에러 피드백과 함께 두 방향 그래디언트 압축을 개발한다.
  • 수렴을 보존하면서 압축 품질을 향상시키기 위한 블록별 그래디언트 압축을 제안한다.
  • 비볼록 목적함수에 대한 dist-EF-SGD 및 dist-EF-SGDM의 이론적 수렴 보장을 확립한다.
  • ResNet/ImageNet 및 CIFAR-100 실험으로 전체 정밀도 학습과의 비슷한 정확도를 보이며 접근법을 검증한다.

제안 방법

  • EF-SGD를 워커와 서버 양측의 그래디언트 압축 및 에러 피드백으로 분산 설정에 확장한다.
  • 두 방향 압축 및 에러 수정이 가능한 dist-EF-SGD 및 블록 기반 변형 dist-EF-blockSGD를 도입하고, 변화하는 스텝 사이즈에 맞춰 로컬/글로벌 에러 항의 재스케일링을 포함한다.
  • 일반 가정 하에서의 수렴 분석을 제시하고, 비볼록 문제에 대해 완전 정밀도 분산 SGD에 상응하는 O(1/√(MT)) 속도를 증명한다.
  • 블록별 압축기 C_B를 도입하여 그래디언트를 블록으로 분할하고 각 블록을 블록별 스케일링 팩터로 압축하여 더 높은 δ를 유지하고 약 32x의 통신 감축을 가능하게 한다.
  • dist-EF-blockSGDM으로 네스테로프 모멘텀을 확장하고 수렴 결과를 도출하며 압축 노이즈에 대한 모멘텀의 트레이드오프를 논의한다.
  • 선택적으로 모멘텀을 활성화한 변형을 포함하여 유사한 양방향 압축 프레임워크를 따른다.

실험 결과

연구 질문

  • RQ1분산 파라미터 서버 설정에서 두 방향 그래디언트 압축과 에러 피드백이 비볼록 목적함수에서 수렴 보장을 달성할 수 있는가?
  • RQ2블록별 압축이 한 번의 기호 기반 방법과 비교하여 압축 품질과 수렴에 어떤 영향을 미치는가?
  • RQ3비볼록 학습에서 일정한/감소하는/증가하는 스텝 사이드와 함께 dist-EF-SGD 및 dist-EF-SGDM의 수렴 속도는 어떠한가?
  • RQ4제안된 블록별 압축기가 δ를 어떻게 개선하고 표준 1-비트 기호 기반 압축에 비해 수렴을 어떻게 향상시키는가?
  • RQ5제안된 방법들이 대규모 실험(ImageNet-ResNet 등)에서 통신을 크게 줄이면서 정확도를 유지하는가?

주요 결과

  • dist-EF-SGD는 표준 가정 하에서 O(1/√(MT)) 수렴 속도를 달성하며, 전체 정밀도 그래디언트와 함께 분산 SGD와 대등하다.
  • dist-EF-SGDM은 네스테로프 모멘텀과 함께 O(1/√(MT)) 수렴 속도를 달성한다.
  • 블록별 압축기 C_B는 φ(v)-근사 압축기로서 φ(v) ≥ min_b 1/d_b 이며, 거의 32x의 통신 감소를 가능하게 한다.
  • 실험 결과는 ImageNet/ResNet-50에서 풀 프리시전 모멘텀 SGD와 비교할 만한 테스트 정확도와 상당한 벽시계 시간 절감을 보인다(46% 빠름).
  • SignSGD 기반 방법은 보고된 실험에서 정확도가 낮은 편을 보이며, EF 기반 및 블록-EF 방법의 견고함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.