QUICK REVIEW

[논문 리뷰] Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters

Shaohuai Shi, Xianhao Zhou|arXiv (Cornell University)|2020. 10. 20.

Privacy-Preserving Technologies in Data참고 문헌 33인용 수 25

한 줄 요약

이 논문은 공공 클라우드 클러스터에서 확장 가능한 분산 학습을 가능하게 하기 위해 GPU 최적화된 연산자와 다중 수준 I/O 캐싱을 갖춘 통신 효율적인 top-k 희소화 라이브러리를 제안한다. 16개 노드로 구성된 텐센트 클라우드 클러스터(128개의 V100 GPU)에서 기존 최첨단 시스템 대비 25%-40% 더 빠른 학습 속도를 기록했으며, 25GbE 인터커넥트를 사용해 ResNet-50을 28 에포크 내에 ImageNet에서 93%의 top-5 정확도로 학습시켜 DAWNBench 기록을 경신했다.

ABSTRACT

Distributed training techniques have been widely deployed in large-scale deep neural networks (DNNs) training on dense-GPU clusters. However, on public cloud clusters, due to the moderate inter-connection bandwidth between instances, traditional state-of-the-art distributed training systems cannot scale well in training large-scale models. In this paper, we propose a new computing and communication efficient top-k sparsification communication library for distributed training. To further improve the system scalability, we optimize I/O by proposing a simple yet efficient multi-level data caching mechanism and optimize the update operation by introducing a novel parallel tensor operator. Experimental results on a 16-node Tencent Cloud cluster (each node with 8 Nvidia Tesla V100 GPUs) show that our system achieves 25%-40% faster than existing state-of-the-art systems on CNNs and Transformer. We finally break the record on DAWNBench on training ResNet-50 to 93% top-5 accuracy on ImageNet.

연구 동기 및 목표

중간 수준의 노드 간 대역폭을 가진 공공 클라우드 클러스터에서 기존 분산 학습 시스템의 낮은 확장성 효율성을 해결하기 위해.
수렴성이나 정확도를 희생시키지 않고 대규모 DNN 학습에서 통신 오버헤드를 줄이기 위해.
공공 클라우드 환경에서 네트워크 기반 파일 시스템으로 인한 I/O 병목 현상을 최소화하기 위해.
top-k 희소화 및 병렬 텐서 연산의 효율적 구현을 통해 GPU 활용도를 향상시키기 위해.
일반적인 공공 클라우드 인프라에서 최첨단 학습 처리량과 확장성을 달성하기 위해.

제안 방법

기울기 선택의 계산 비용을 줄이기 위해 새로운 병렬 알고리즘을 사용한 GPU 우수한 top-k 희소화 연산자 설계.
중복된 데이터 전송을 최소화하고 노드 간 로드 밸런싱을 향상시키기 위해 계층적 top-k 통신 전략(HiTopKComm) 도입.
GPU 메모리, 로컬 SSD, 원격 NFS 등 여러 계층에서 데이터를 캐시함으로써 I/O 지연을 줄이는 다중 수준 데이터 캐싱 메커니즘 제안.
희소 기울기 업데이트를 효율적으로 처리하고 파라미터 집계 중 GPU 활용도를 향상시키기 위해 병렬 텐서 연산자 개발.
초기 에포크에는 통신 효율성이 높은 MSTopK-SGD를, 후기 에포크에는 정확도를 유지하기 위해 2DTAR-SGD로 전환하는 하이브리드 학습 전략 채택.
느린 인터커넥트에서의 지연을 줄이기 위해 희소 기울기의 All-Gather 단계를 새로운 통신 패턴으로 최적화.

실험 결과

연구 질문

RQ1GPU에서 top-k 희소화를 효율적으로 구현하여 분산 DNN 학습에서 통신 오버헤드를 줄일 수 있는가?
RQ2낮은 대역폭의 NFS를 가진 공공 클라우드 클러스터에서 대규모 학습 중 I/O 병목 현상을 어떻게 완화할 수 있는가?
RQ3대용량 배치 분산 학습에서 통신 효율성과 모델 수렴성 사이의 최적의 트레이드오프는 무엇인가?
RQ4희소화 및 밀도 있는 통신을 조합한 하이브리드 학습 전략이 속도와 정확도를 모두 향상시킬 수 있는가?
RQ5중간 수준의 인터커넥트 대역폭을 가진 실제 공공 클라우드 환경에서 제안된 시스템의 성능은 어떠한가?

주요 결과

128개의 V100 GPU와 25GbE 인터커넥트를 갖춘 16노드 텐센트 클라우드 클러스터에서, 기존 최첨단 시스템 대비 CNN 및 트랜스포머에서 25%-40% 더 빠른 학습 속도를 기록했다.
ResNet-50을 ImageNet에서 28 에포크 내에 93%의 top-5 정확도로 학습시켜 DAWNBench 기록을 경신했으며, 128개의 V100 GPU로 151초 만에 완료했다.
하이브리드 학습 전략(MSTopK-SGD 이후 2DTAR-SGD)은 높은 정확도를 유지하면서도 뛰어난 확장성 효율성을 확보했다.
다중 수준 데이터 캐싱 메커니즘이 I/O 지연을 크게 줄여 네트워크 기반 파일 시스템에서의 전체 시스템 처리량을 향상시켰다.
GPU 최적화된 top-k 연산자는 기울기 희소화의 계산 비용을 줄여 공공 클라우드 클러스터에서 고성능 통신을 가능하게 했다.
계층적 top-k 통신(HiTopKComm)은 통신 오버헤드를 감소시키고, 특히 느린 인터커넥트에서 로드 밸런싱을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.