QUICK REVIEW

[논문 리뷰] Communication-Efficient Distributed Blockwise Momentum SGD with Error-Feedback

Shuai Zheng, Ziyue Huang|arXiv (Cornell University)|2019. 05. 27.

Advanced Neural Network Applications참고 문헌 28인용 수 41

한 줄 요약

이 논문은 dist-EF-SGD 및 블록별 변형을 제시하여 에러 피드백과 모멘텀을 활용한 양방향 그래디언트 압축을 수행하고, 비볼록 문제에서 수렴 속도를 유지하면서 약 32x의 통신 감소를 달성하며 실무적으로 전체 정밀도 분산 SGD/SGDM과 일치한다.

ABSTRACT

Communication overhead is a major bottleneck hampering the scalability of distributed machine learning systems. Recently, there has been a surge of interest in using gradient compression to improve the communication efficiency of distributed neural network training. Using 1-bit quantization, signSGD with majority vote achieves a 32x reduction on communication cost. However, its convergence is based on unrealistic assumptions and can diverge in practice. In this paper, we propose a general distributed compressed SGD with Nesterov's momentum. We consider two-way compression, which compresses the gradients both to and from workers. Convergence analysis on nonconvex problems for general gradient compressors is provided. By partitioning the gradient into blocks, a blockwise compressor is introduced such that each gradient block is compressed and transmitted in 1-bit format with a scaling factor, leading to a nearly 32x reduction on communication. Experimental results show that the proposed method converges as fast as full-precision distributed momentum SGD and achieves the same testing accuracy. In particular, on distributed ResNet training with 7 workers on the ImageNet, the proposed algorithm achieves the same testing accuracy as momentum SGD using full-precision gradients, but with $46\%$ less wall clock time.

연구 동기 및 목표

대규모 딥러닝에서 분산 SGD/SGDM의 커뮤니케이션 병목 현상을 동기화하고 해결한다.
파라미터 서버 설정에서 에러 피드백과 함께 두 방향 그래디언트 압축을 개발한다.
수렴을 보존하면서 압축 품질을 향상시키기 위한 블록별 그래디언트 압축을 제안한다.
비볼록 목적함수에 대한 dist-EF-SGD 및 dist-EF-SGDM의 이론적 수렴 보장을 확립한다.
ResNet/ImageNet 및 CIFAR-100 실험으로 전체 정밀도 학습과의 비슷한 정확도를 보이며 접근법을 검증한다.

제안 방법

EF-SGD를 워커와 서버 양측의 그래디언트 압축 및 에러 피드백으로 분산 설정에 확장한다.
두 방향 압축 및 에러 수정이 가능한 dist-EF-SGD 및 블록 기반 변형 dist-EF-blockSGD를 도입하고, 변화하는 스텝 사이즈에 맞춰 로컬/글로벌 에러 항의 재스케일링을 포함한다.
일반 가정 하에서의 수렴 분석을 제시하고, 비볼록 문제에 대해 완전 정밀도 분산 SGD에 상응하는 O(1/√(MT)) 속도를 증명한다.
블록별 압축기 C_B를 도입하여 그래디언트를 블록으로 분할하고 각 블록을 블록별 스케일링 팩터로 압축하여 더 높은 δ를 유지하고 약 32x의 통신 감축을 가능하게 한다.
dist-EF-blockSGDM으로 네스테로프 모멘텀을 확장하고 수렴 결과를 도출하며 압축 노이즈에 대한 모멘텀의 트레이드오프를 논의한다.
선택적으로 모멘텀을 활성화한 변형을 포함하여 유사한 양방향 압축 프레임워크를 따른다.

실험 결과

연구 질문

RQ1분산 파라미터 서버 설정에서 두 방향 그래디언트 압축과 에러 피드백이 비볼록 목적함수에서 수렴 보장을 달성할 수 있는가?
RQ2블록별 압축이 한 번의 기호 기반 방법과 비교하여 압축 품질과 수렴에 어떤 영향을 미치는가?
RQ3비볼록 학습에서 일정한/감소하는/증가하는 스텝 사이드와 함께 dist-EF-SGD 및 dist-EF-SGDM의 수렴 속도는 어떠한가?
RQ4제안된 블록별 압축기가 δ를 어떻게 개선하고 표준 1-비트 기호 기반 압축에 비해 수렴을 어떻게 향상시키는가?
RQ5제안된 방법들이 대규모 실험(ImageNet-ResNet 등)에서 통신을 크게 줄이면서 정확도를 유지하는가?

주요 결과

dist-EF-SGD는 표준 가정 하에서 O(1/√(MT)) 수렴 속도를 달성하며, 전체 정밀도 그래디언트와 함께 분산 SGD와 대등하다.
dist-EF-SGDM은 네스테로프 모멘텀과 함께 O(1/√(MT)) 수렴 속도를 달성한다.
블록별 압축기 C_B는 φ(v)-근사 압축기로서 φ(v) ≥ min_b 1/d_b 이며, 거의 32x의 통신 감소를 가능하게 한다.
실험 결과는 ImageNet/ResNet-50에서 풀 프리시전 모멘텀 SGD와 비교할 만한 테스트 정확도와 상당한 벽시계 시간 절감을 보인다(46% 빠름).
SignSGD 기반 방법은 보고된 실험에서 정확도가 낮은 편을 보이며, EF 기반 및 블록-EF 방법의 견고함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.