QUICK REVIEW

[논문 리뷰] Beyond Data and Model Parallelism for Deep Neural Networks

Zhihao Jia, Matei Zaharia|arXiv (Cornell University)|2018. 07. 14.

Advanced Neural Network Applications참고 문헌 31인용 수 147

한 줄 요약

FlexFlow는 DNN 병렬화를 위한 더 넓은 SOAP 공간(Sample-Operation-Attribute-Parameter)을 정의하고, 효율적인 전략을 찾기 위해 MCMC 탐색이 포함된 빠른 실행 시뮬레이터를 사용하며, 기존 방법 대비 상당한 처리량 증가를 달성한다.

ABSTRACT

The computational requirements for training deep neural networks (DNNs) have grown to the point that it is now standard practice to parallelize training. Existing deep learning systems commonly use data or model parallelism, but unfortunately, these strategies often result in suboptimal parallelization performance. In this paper, we define a more comprehensive search space of parallelization strategies for DNNs called SOAP, which includes strategies to parallelize a DNN in the Sample, Operation, Attribute, and Parameter dimensions. We also propose FlexFlow, a deep learning framework that uses guided randomized search of the SOAP space to find a fast parallelization strategy for a specific parallel machine. To accelerate this search, FlexFlow introduces a novel execution simulator that can accurately predict a parallelization strategy's performance and is three orders of magnitude faster than prior approaches that have to execute each strategy. We evaluate FlexFlow with six real-world DNN benchmarks on two GPU clusters and show that FlexFlow can increase training throughput by up to 3.8x over state-of-the-art approaches, even when including its search time, and also improves scalability.

연구 동기 및 목표

데이터 및 모델 병렬화를 넘어서는 더 포괄적인 병렬화의 필요성을 제시한다.
Sample, Operation, Attribute, Parameter 차원을 포함하는 더 넓은 SOAP 탐색 공간을 정형화한다.
성능을 예측하고 최적화를 안내하기 위한 빠른 실행 시뮬레이터를 개발한다.
빠른 병렬화 전략을 자동으로 발견하고 실행하는 프레임워크인 FlexFlow를 제안한다.
실제 DNN 벤치마크에서 처리량과 확장성 개선을 입증한다.

제안 방법

SOAP 탐색 공간(Sample, Operation, Attribute, Parameter)을 정의하여 디바이스 간 DNN 병렬화를 수행한다.
낮은 분산과 높은 속도로 성능을 예측하는 빠른 실행 시뮬레이터를 개발하여 광범위한 탐색을 가능하게 한다.
시뮬레이션된 성능을 바탕으로 SOAP 전략을 탐색하기 위해 Markov Chain Monte Carlo (MCMC) 최적화를 사용한다.
전략 변경을 효율적으로 평가하기 위한 전체 및 델타 시뮬레이션 알고리즘을 구현한다.
발견된 병렬화 전략을 실행하기 위한 분산 런타임(Legion)을 구축한다.

실험 결과

연구 질문

RQ1SOAP 공간이 전통적인 데이터/모델 병렬화 및 전문가가 설계한 전략보다 더 빠른 병렬화를 제공할 수 있는가?
RQ2실제 실행과 비교했을 때 FlexFlow 실행 시뮬레이터의 정확성과 속도는 얼마나 되는가?
RQ3GPU 클러스터에 걸친 실제 DNN 벤치마크에서 어떤 처리량 및 확장성 향상을 달성할 수 있는가?
RQ4효율적인 전략을 발견하는 측면에서 FlexFlow가 REINFORCE 및 OptCNN과 어떻게 비교되는가?
RQ5더 넓은 병렬화가 통신 비용과 스케줄링에 미치는 영향은 무엇인가?

주요 결과

FlexFlow는 최신 방법 대비 최대 3.8배의 학습 처리량 향상을 달성한다.
시뮬레이터 기반 탐색은 REINFORCE가 4 GPUs 및 총 160 노드에서 필요한 12–27시간에 비해 전략 발견을 14–40초에 달성한다.
평가에서 FlexFlow는 최대 3.3배의 처리량 증가와 최대 5배의 통신 비용 감소를 달성한다.
동일 하드웨어 구성에서 REINFORCE보다 3.4–3.8배 더 우수하고, 더 넓은 SOAP 공간을 지원하여 OptCNN보다 1.2–1.6배 우수하다.
시뮬레이터의 상대 오차는 측정된 실행 시간에 대해 30% 미만으로, 전략 간 시간 순서를 보존한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.