QUICK REVIEW

[논문 리뷰] Integrated Model and Data Parallelism in Training Neural Networks.

Amir Gholami, Ariful Azad|arXiv (Cornell University)|2017. 12. 12.

Stochastic Gradient Optimization Techniques인용 수 4

한 줄 요약

이 논문은 $P_r \times P_c$ 프로세스 격자를 사용하여 깊이 신경망을 훈련하기 위한 통합 모델 및 데이터 병렬 처리 프레임워크를 제안한다. 두 병렬 처리 방식을 결합하여 통신 비용을 최소화한다. 실험 결과 하이브리드 병렬 처리가 순수 모델 병렬 처리 또는 순수 데이터 병렬 처리보다 우수한 성능을 보이며, 더 두꺼운 행렬을 통해 더 높은 처리량의 행렬 곱셈을 가능하게 한다.

ABSTRACT

We propose a new integrated method of exploiting both model and data parallelism for the training of deep neural networks (DNNs) on large distributed-memory computers using mini-batch stochastic gradient descent (SGD). Our goal is to find an efficient parallelization strategy for a fixed batch size using $P$ processes. Our method is inspired by the communication-avoiding algorithms in numerical linear algebra. We see $P$ processes as logically divided into a $P_r imes P_c$ grid where the $P_r$ dimension is implicitly responsible for model parallelism and the $P_c$ dimension is implicitly responsible for data parallelism. In practice, the integrated matrix-based parallel algorithm encapsulates both types of parallelism automatically. We analyze the communication complexity and analytically demonstrate that the lowest communication costs are often achieved neither with pure model parallelism nor with pure data parallelism. We also show the positive effect of our approach in the computational performance of SGD based DNN training where the reduced number of processes responsible for data parallelism result in fatter matrices that enable higher-throughput matrix multiplication.

연구 동기 및 목표

고정된 미니배치 크기를 가진 분산 메모리 시스템에서 대규모 DNN 훈련을 위한 효율적인 병렬 처리 전략을 개발한다.
모델 및 데이터 병렬 처리를 융합하여 SGD 기반 훈련에서 통신 오버헤드를 최소화한다.
통신 복잡도를 분석하고 최적의 하이브리드 병렬 처리 구성 조합을 규명한다.
데이터 병렬 처리에 사용하는 프로세스 수를 줄여 더 높은 처리량의 행렬 곱셈을 가능하게 하여 계산 성능을 향상시킨다.

제안 방법

해당 방법은 $P$개의 프로세스를 논리적 $P_r \times P_c$ 격자로 구성하며, $P_r$은 모델 병렬 처리를 담당하고 $P_c$는 데이터 병렬 처리를 담당한다.
계산 내부에 자동으로 모델 및 데이터 병렬 처리를 봉인하는 행렬 기반 병렬 알고리즘을 적용한다.
통신을 최소화하기 위해 수치 선형 대수에서 유래한 통신 회피 알고리즘을 영감으로 삼는다.
분석적으로 통신 복잡도를 모델링하여 $P_r$과 $P_c$의 최적 선택을 안내한다.
데이터 병렬 처리에 사용하는 프로세스 수를 줄여 행렬 곱셈에서 더 큰, 더 두꺼운 행렬을 활용한다.

실험 결과

연구 질문

RQ1DNN 훈련에서 통신 비용을 최소화하기 위해 모델 병렬 처리와 데이터 병렬 처리 사이의 최적 균형은 무엇인가?
RQ2모델 및 데이터 병렬 처리의 통합은 SGD 기반 훈련에서 행렬 곱셈의 처리량에 어떤 영향을 미치는가?
RQ3하이브리드 병렬 처리 전략은 순수 모델 병렬 처리 또는 순수 데이터 병렬 처리보다 통신 효율성 측면에서 뛰어나다고 할 수 있는가?
RQ4프로세스 격자 구성($P_r \times P_c$)은 통신 복잡도와 훈련 성능에 어떤 영향을 미치는가?

주요 결과

가장 낮은 통신 비용은 순수 모델 병렬 처리 또는 순수 데이터 병렬 처리가 아니라 하이브리드 전략을 통해 달성된다.
데이터 병렬 처리에 사용하는 프로세스 수를 줄이면 더 두꺼운 행렬이 만들어지고, 이는 행렬 곱셈 연산에서 처리량 향상에 기여한다.
통합된 접근 방식은 순수 모델 병렬 처리 또는 순수 데이터 병렬 처리보다 더 낮은 통신 복잡도를 달성한다.
중복된 통신을 최소화하면서도 확장성을 유지함으로써 더 높은 계산 효율성을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.