QUICK REVIEW

[논문 리뷰] Modeling and Evaluation of Synchronous Stochastic Gradient Descent in Distributed Deep Learning on Multiple GPUs.

Shaohuai Shi, Qiang Wang|arXiv (Cornell University)|2018. 05. 10.

Stochastic Gradient Optimization Techniques인용 수 3

한 줄 요약

이 논문은 여러 GPU를 통해 분산 딥러닝에서 동기화 스토하스틱 그래디언트 하강(S-SGD)을 분석하기 위해 일반적인 방향성 비순환 그래프(DAG) 모델을 제안한다. PCIe, NVLink, 10GbE 및 인피니밴드를 사용한 네 개의 프레임워크(Caffe-MPI, CNTK, MXNet, TensorFlow)에서의 실험적 평가를 통해 통신 병목 현상을 규명하고, 시뮬레이션 기반 연구를 위한 공개 가능한 실험 트레이스를 제공한다.

ABSTRACT

With huge amounts of training data, deep learning has made great breakthroughs in many artificial intelligence (AI) applications. However, such large-scale data sets present computational challenges, requiring training to be distributed on a cluster equipped with accelerators like GPUs. With the fast increase of GPU computing power, the data communications among GPUs have become a potential bottleneck on the overall training performance. In this paper, we first propose a general directed acyclic graph (DAG) model to describe the distributed synchronous stochastic gradient descent (S-SGD) algorithm, which has been widely used in distributed deep learning frameworks. To understand the practical impact of data communications on training performance, we conduct extensive empirical studies on four state-of-the-art distributed deep learning frameworks (i.e., Caffe-MPI, CNTK, MXNet and TensorFlow) over multi-GPU and multi-node environments with different data communication techniques, including PCIe, NVLink, 10GbE, and InfiniBand. Through both analytical and experimental studies, we identify the potential bottlenecks and overheads that could be further optimized. At last, we make the data set of our experimental traces publicly available, which could be used to support simulation-based studies.

연구 동기 및 목표

일반적인 방향성 비순환 그래프(DAG) 추상화를 사용하여 분산 S-SGD 학습에서의 동작을 모델링하기 위해.
다양한 데이터 통신 기술을 통해 다중 GPU 및 다중 노드 환경에서의 통신 병목 현상을 규명하고 분석하기 위해.
최신 딥러닝 프레임워크에서 PCIe, NVLink, 10GbE 및 인피니밴드와 같은 다양한 통신 기술의 성능 영향을 평가하기 위해.
향후 시뮬레이션 기반 연구를 지원하기 위해 공개 가능한 실험 트레이스 데이터셋을 제공하기 위해.

제안 방법

분산 S-SGD 학습에서의 계산 및 통신 흐름을 표현하기 위해 일반적인 방향성 비순환 그래프(DAG) 모델을 개발한다.
Caffe-MPI, CNTK, MXNet 및 TensorFlow의 네 가지 딥러닝 프레임워크를 대상으로 광범위한 실험적 연구를 수행한다.
PCIe, NVLink, 10GbE 및 인피니밴드와 같은 다양한 통신 백본을 사용하여 학습 성능을 평가한다.
분석적 및 실험적 분석을 통해 데이터 통신과 관련된 성능 병목 현상을 규명한다.
재현성 및 시뮬레이션 용도로 다중 GPU 및 다중 노드 환경에서의 상세한 실험 트레이스를 수집하고 공개한다.
DAG 모델을 사용하여 S-SGD에서 계산 및 통신 단계 간의 상호작용을 체계적으로 맵핑하고 분석한다.

실험 결과

연구 질문

RQ1다양한 인터커넥트 기술(PCIe, NVLink, 10GbE, 인피니밴드)에서 다중 GPU 환경에서 S-SGD의 통신 오버헤드는 어떻게 달라지나?
RQ2다양한 GPU 및 노드로 확장할 경우 분산 S-SGD 학습에서의 주요 성능 병목 현상은 무엇인가?
RQ3Caffe-MPI, CNTK, MXNet, TensorFlow와 같은 다양한 딥러닝 프레임워크는 어떻게 다른 통신 및 계산 트레이드오프를 보이는가?
RQ4제안된 DAG 모델이 분산 학습에서 S-SGD의 행동을 얼마나 정확하게 표현하고 예측할 수 있는가?
RQ5실험 트레이스에서 도출할 수 있는 통찰은 향후 통신 효율적인 딥러닝 프레임워크 최적화를 어떻게 도울 수 있는가?

주요 결과

모델 및 데이터 스케일이 증가함에 따라 GPU 간의 데이터 통신이 분산 S-SGD 학습에서 주요 병목 현상으로 부각된다.
NVLink는 PCIe에 비해 통신 지연을 크게 감소시켜 학습 스루풋을 향상시킨다.
다중 노드 환경에서 인피니밴드는 10GbE에 비해 낮은 지연과 높은 대역폭 덕분에 성능이 뛰어나다.
통신 백엔드 선택이 전체 학습 성능에 측정 가능한 영향을 미치며, 스케일이 증가할수록 성능 격차가 커진다.
제안된 DAG 모델은 S-SGD에서의 통신-계산 상호작용 패턴을 효과적으로 포착하여 체계적인 병목 현상 분석을 가능하게 한다.
공개된 실험 트레이스는 분산 딥러닝 연구에서 시뮬레이션 도구의 검증 및 校정을 위한 귀중한 자원을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.