QUICK REVIEW

[논문 리뷰] Decentralized Deep Learning with Arbitrary Communication Compression

Anastasia Koloskova, Tao Lin|arXiv (Cornell University)|2019. 07. 22.

Privacy-Preserving Technologies in Data참고 문헌 58인용 수 31

한 줄 요약

이 논문은 비볼록 딥러닝에서 작업자 수에 대해 선형 속도 향상을 달성하면서도 임의의 통신 압축(예: 양자화 및 희소화)을 허용하는 분산형 확률적 경사 하강법인 Choco-SGD를 제안한다. 수렴 속도는 $\mathcal{O}(1/\sqrt{nT} + 1/((\rho^2\delta T)^{2/3}))$로 증명되며, 여기서 $n$은 작업자 수, $T$는 반복 횟수, $\rho$는 스펙트럼 갭, $\delta$는 압축 비율이다. 실험적 검증을 통해 피어 투 피어 및 데이터센터 환경에서 통신 양을 크게 줄이고 정확도에 도달하는 데 소요되는 시간을 향상시켰다.

ABSTRACT

Decentralized training of deep learning models is a key element for enabling data privacy and on-device learning over networks, as well as for efficient scaling to large compute clusters. As current approaches suffer from limited bandwidth of the network, we propose the use of communication compression in the decentralized training context. We show that Choco-SGD $-$ recently introduced and analyzed for strongly-convex objectives only $-$ converges under arbitrary high compression ratio on general non-convex functions at the rate $O\bigl(1/\sqrt{nT}\bigr)$ where $T$ denotes the number of iterations and $n$ the number of workers. The algorithm achieves linear speedup in the number of workers and supports higher compression than previous state-of-the art methods. We demonstrate the practical performance of the algorithm in two key scenarios: the training of deep learning models (i) over distributed user devices, connected by a social network and (ii) in a datacenter (outperforming all-reduce time-wise).

연구 동기 및 목표

기존의 분산형 훈련 방법이 압축 연산자를 제한하고 고압축 비율에서 스케일업하지 못하는 한계를 해결하기 위해.
기기 내 학습 및 대규모 데이터센터와 같은 자원 제약 환경에서 효율적이고 통신 효율적인 분산형 훈련을 가능하게 하기 위해.
비볼록 딥러닝에서 수렴성이나 모델 일반화 성능을 희생시키지 않고도 임의의 압축을 사용할 수 있음을 입증하기 위해.
대규모 노드 수에 대한 분산형 훈련의 확장성과 공통의 성능 저하 요인을 규명하기 위해.

제안 방법

Choco-SGD는 볼록 설정에서 비볼록 설정으로의 확장을 위해 Choco-SGD 프레임워크를 확장하며, 공통의 게이시프 기반 메커니즘을 사용해 기울기 교환을 수행한다.
양자화(QSGD), 희소화(랜덤/톱-k), 정규화를 포함한 기반 기반 압축 연산자를 임의로 통합한다.
실제 환경에서 수렴성과 일반화 성능을 향상시키기 위해 운동량 변형을 사용한다.
압축 오차와 기울기 하강 진행 간 균형을 맞추기 위해 공통 단계 크기를 사용하며, 일반적인 비볼록 스무쓰 함수에서의 수렴성을 이론적으로 분석하였다.
두 가지 환경에서 평가되었으며, 현실적인 피어 투 피어 사회 네트워크 토폴로지와 레이아웃/토러스 토폴로지가 적용된 데이터센터 환경이다.
기준 분산형 알고리즘과의 공정한 비교를 위해 각 압축 방식과 토폴로지에 맞게 하이퍼파rameter를 튜닝하였다.

실험 결과

연구 질문

RQ1비볼록 딥러닝에서 수렴성이나 일반화 성능이 악화되지 않도록 임의의 통신 압축을 사용할 수 있는가?
RQ2고압축 비율과 비독립 동일 분포(Non-IID) 데이터 하에서 작업자 수에 대해 Choco-SGD가 선형 속도 향상을 달성하는가?
RQ3실제 분산형 환경, 예를 들어 피어 투 피어 네트워크를 통한 기기 내 훈련에서 Choco-SGD는 어떻게 성능을 발휘하는가?
RQ4대규모 노드 수로 분산형 훈련을 확장할 경우 실용적인 통신 및 정확도에 도달하는 데 소요되는 시간의 상호 보완적 관계는 어떠한가?
RQ5대규모 노드 수로 확장할 때 분산형 방법(Choco-SGD 포함)이 중심집중형 기준 대비 성능이 열등한 이유는 무엇인가?

주요 결과

Choco-SGD는 비볼록 함수에 대해 작업자 수 $n$에 대해 선형 속도 향상을 달성하며, 주요 수렴 항인 $\mathcal{O}(1/\sqrt{nT})$는 중심집중형 기준과 동일하다.
1비트 압축(예: 부호+정규화) 조건에서도 높은 테스트 정확도를 유지하며, 전체 정밀도 훈련 대비 훈련 반복 수가 다소 증가할 뿐이다.
32개 노드의 사회 네트워크에서 피어 투 피어 훈련을 수행한 결과, Choco-SGD는 중심집중형 훈련 대비 전송 비트 수를 95% 감소시켰고, 유사한 테스트 정확도를 달성했다.
ImageNet에서 ResNet-50을 사용한 결과, 데이터센터 환경에서 Choco-SGD는 통신 오버헤드를 줄여 정확도에 도달하는 데 소요되는 시간을 향상시켰다.
64개 노드로 확장한 결과, 분산형 방법(Choco-SGD 포함)이 중심집중형 훈련보다 훨씬 많은 에포크를 요구하는 것으로 나타나, 공통의 확장성 한계가 존재함을 시사했다.
대규모 확장에서 중심집중형과 분산형 방법 간의 테스트 정확도 격차는 여전히 지속되며, 이는 분산형 학습의 열린 과제임을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.