[논문 리뷰] ScaleCom: Scalable Sparsified Gradient Compression for Communication-Efficient Distributed Training
ScaleCom은 순환 로컬 톱-k와 저역통 필터를 이용한 확장 가능한 희소화된 그래디언트 압축 방법으로, 비교적 작은 정확도 손실로 효과적인 all-reduce, 대배치 학습을 가능하게 한다.
Large-scale distributed training of Deep Neural Networks (DNNs) on state-of-the-art platforms is expected to be severely communication constrained. To overcome this limitation, numerous gradient compression techniques have been proposed and have demonstrated high compression ratios. However, most existing methods do not scale well to large scale distributed systems (due to gradient build-up) and/or fail to evaluate model fidelity (test accuracy) on large datasets. To mitigate these issues, we propose a new compression technique, Scalable Sparsified Gradient Compression (ScaleCom), that leverages similarity in the gradient distribution amongst learners to provide significantly improved scalability. Using theoretical analysis, we show that ScaleCom provides favorable convergence guarantees and is compatible with gradient all-reduce techniques. Furthermore, we experimentally demonstrate that ScaleCom has small overheads, directly reduces gradient traffic and provides high compression rates (65-400X) and excellent scalability (up to 64 learners and 8-12X larger batch sizes over standard training) across a wide range of applications (image, language, and speech) without significant accuracy loss.
연구 동기 및 목표
- 모델과 데이터셋이 커지면서 커뮤니케이션 효율이 높은 분산 학습에 대한 필요를 자극한다.
- 다수의 워커에서 그래디언트를 합산할 때 여전히 효과적인 압축 기법을 개발한다.
- 대규모 배치 데이터 병렬 학습에서 큰 정확도 손실 없이 가능하도록 한다.
- 표준 all-reduce 아키텍처와의 호환성을 보장하고 수렴 보장을 제공한다.
제안 방법
- 로컬 메모리 간에 워커를 정렬시키는 교환 가능한 압축기인 Cyclic Local Top-k (CLT-k)를 제안한다.
- 대규모 배치/학습률 설정에서 그래디언트 노이즈를 억제하기 위해 로컬 메모리에 로우-패스 필터를 도입한다.
- 표준 SGD 가정하에서 ScaleCom과 CLT-k의 수축 특성과 수렴 보장을 증명한다.
- 이론과 실험을 통해 all-reduce와의 호환성 및 64워커까지의 확장성을 시연한다.
- CLT-k 압축, 메모리 필터링, 그래디언트 축적 및 업데이트를 통합하는 엔드 투 엔드 알고리즘(ScaleCom)을 제공한다.
실험 결과
연구 질문
- RQ1CLT-k가 대규모 분산 학습에서 오류 피드백 SGD에 적합한 교환 가능성(commutative) 및 수축 특성을 제공하는가?
- RQ2대규모 배치에서의 로우-패스 필터링된 메모리 업데이트가 수렴 및 메모리 유사도에 어떤 영향을 미치는가?
- RQ3ScaleCom의 수렴 보장과 워커 수에 따른 선형 속도 향상 가능성은 무엇인가?
- RQ4ScaleCom이 다양한 작업(비전, 언어, 음성) 및 대배치 구간에서 모델 정확도를 유지하는가?
- RQ5ScaleCom이 표준 all-reduce 구현과 호환되고 64+ 워커까지 확장 가능한가?
주요 결과
- ScaleCom은 비전, 언어, 음성 작업 전반에서 negligible한 정확도 손실로 65-400배의 압축을 달성한다.
- 64개의 학습자까지 확장 가능하며 ImageNet, WMT, SWB300에서 정확도를 유지한 채 더 큰 배치 크기(8-12배)를 가능하게 한다.
- CLT-k 압축기는 교환 가능하며 top-k와 유사하게 수축한다, 효율적인 all-reduce를 가능하게 한다.
- 대규모 학습률에서 메모리 유사성을 개선하는 로우-패스 필터링이 수렴을 보존한다.
- 경험적 결과는 표준 배치 크기에서의 degrad가 거의 없고 큰 배치 구간에서도 강한 보존성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.