Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters

Shaohuai Shi, Xianhao Zhou|arXiv (Cornell University)|2020. 10. 20.
Privacy-Preserving Technologies in Data참고 문헌 33인용 수 25
한 줄 요약

이 논문은 공공 클라우드 클러스터에서 확장 가능한 분산 학습을 가능하게 하기 위해 GPU 최적화된 연산자와 다중 수준 I/O 캐싱을 갖춘 통신 효율적인 top-k 희소화 라이브러리를 제안한다. 16개 노드로 구성된 텐센트 클라우드 클러스터(128개의 V100 GPU)에서 기존 최첨단 시스템 대비 25%-40% 더 빠른 학습 속도를 기록했으며, 25GbE 인터커넥트를 사용해 ResNet-50을 28 에포크 내에 ImageNet에서 93%의 top-5 정확도로 학습시켜 DAWNBench 기록을 경신했다.

ABSTRACT

Distributed training techniques have been widely deployed in large-scale deep neural networks (DNNs) training on dense-GPU clusters. However, on public cloud clusters, due to the moderate inter-connection bandwidth between instances, traditional state-of-the-art distributed training systems cannot scale well in training large-scale models. In this paper, we propose a new computing and communication efficient top-k sparsification communication library for distributed training. To further improve the system scalability, we optimize I/O by proposing a simple yet efficient multi-level data caching mechanism and optimize the update operation by introducing a novel parallel tensor operator. Experimental results on a 16-node Tencent Cloud cluster (each node with 8 Nvidia Tesla V100 GPUs) show that our system achieves 25%-40% faster than existing state-of-the-art systems on CNNs and Transformer. We finally break the record on DAWNBench on training ResNet-50 to 93% top-5 accuracy on ImageNet.

연구 동기 및 목표

  • 중간 수준의 노드 간 대역폭을 가진 공공 클라우드 클러스터에서 기존 분산 학습 시스템의 낮은 확장성 효율성을 해결하기 위해.
  • 수렴성이나 정확도를 희생시키지 않고 대규모 DNN 학습에서 통신 오버헤드를 줄이기 위해.
  • 공공 클라우드 환경에서 네트워크 기반 파일 시스템으로 인한 I/O 병목 현상을 최소화하기 위해.
  • top-k 희소화 및 병렬 텐서 연산의 효율적 구현을 통해 GPU 활용도를 향상시키기 위해.
  • 일반적인 공공 클라우드 인프라에서 최첨단 학습 처리량과 확장성을 달성하기 위해.

제안 방법

  • 기울기 선택의 계산 비용을 줄이기 위해 새로운 병렬 알고리즘을 사용한 GPU 우수한 top-k 희소화 연산자 설계.
  • 중복된 데이터 전송을 최소화하고 노드 간 로드 밸런싱을 향상시키기 위해 계층적 top-k 통신 전략(HiTopKComm) 도입.
  • GPU 메모리, 로컬 SSD, 원격 NFS 등 여러 계층에서 데이터를 캐시함으로써 I/O 지연을 줄이는 다중 수준 데이터 캐싱 메커니즘 제안.
  • 희소 기울기 업데이트를 효율적으로 처리하고 파라미터 집계 중 GPU 활용도를 향상시키기 위해 병렬 텐서 연산자 개발.
  • 초기 에포크에는 통신 효율성이 높은 MSTopK-SGD를, 후기 에포크에는 정확도를 유지하기 위해 2DTAR-SGD로 전환하는 하이브리드 학습 전략 채택.
  • 느린 인터커넥트에서의 지연을 줄이기 위해 희소 기울기의 All-Gather 단계를 새로운 통신 패턴으로 최적화.

실험 결과

연구 질문

  • RQ1GPU에서 top-k 희소화를 효율적으로 구현하여 분산 DNN 학습에서 통신 오버헤드를 줄일 수 있는가?
  • RQ2낮은 대역폭의 NFS를 가진 공공 클라우드 클러스터에서 대규모 학습 중 I/O 병목 현상을 어떻게 완화할 수 있는가?
  • RQ3대용량 배치 분산 학습에서 통신 효율성과 모델 수렴성 사이의 최적의 트레이드오프는 무엇인가?
  • RQ4희소화 및 밀도 있는 통신을 조합한 하이브리드 학습 전략이 속도와 정확도를 모두 향상시킬 수 있는가?
  • RQ5중간 수준의 인터커넥트 대역폭을 가진 실제 공공 클라우드 환경에서 제안된 시스템의 성능은 어떠한가?

주요 결과

  • 128개의 V100 GPU와 25GbE 인터커넥트를 갖춘 16노드 텐센트 클라우드 클러스터에서, 기존 최첨단 시스템 대비 CNN 및 트랜스포머에서 25%-40% 더 빠른 학습 속도를 기록했다.
  • ResNet-50을 ImageNet에서 28 에포크 내에 93%의 top-5 정확도로 학습시켜 DAWNBench 기록을 경신했으며, 128개의 V100 GPU로 151초 만에 완료했다.
  • 하이브리드 학습 전략(MSTopK-SGD 이후 2DTAR-SGD)은 높은 정확도를 유지하면서도 뛰어난 확장성 효율성을 확보했다.
  • 다중 수준 데이터 캐싱 메커니즘이 I/O 지연을 크게 줄여 네트워크 기반 파일 시스템에서의 전체 시스템 처리량을 향상시켰다.
  • GPU 최적화된 top-k 연산자는 기울기 희소화의 계산 비용을 줄여 공공 클라우드 클러스터에서 고성능 통신을 가능하게 했다.
  • 계층적 top-k 통신(HiTopKComm)은 통신 오버헤드를 감소시키고, 특히 느린 인터커넥트에서 로드 밸런싱을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.