QUICK REVIEW

[논문 리뷰] DAPPLE: A Pipelined Data Parallel Approach for Training Large Models

Shiqing Fan, Yi Rong|arXiv (Cornell University)|2020. 07. 02.

Parallel Computing and Optimization Techniques참고 문헌 36인용 수 29

한 줄 요약

DAPPLE는 대규모 딥 네트워크의 훈련을 최적화하기 위해 데이터 병렬성과 파이프라인 병렬성을 조합한 동기 훈련 프레임워크이다. 자동화된 병렬화 기획자와 메모리 효율적인 런타임 스케줄러를 도입하여, PipeDream 대비 최대 3.23배의 속도 향상과 GPipe 대비 1.6배의 처리량 향상을 달성하였으며, 메모리 사용량은 12% 감소시켰다.

ABSTRACT

It is a challenging task to train large DNN models on sophisticated GPU platforms with diversified interconnect capabilities. Recently, pipelined training has been proposed as an effective approach for improving device utilization. However, there are still several tricky issues to address: improving computing efficiency while ensuring convergence, and reducing memory usage without incurring additional computing costs. We propose DAPPLE, a synchronous training framework which combines data parallelism and pipeline parallelism for large DNN models. It features a novel parallelization strategy planner to solve the partition and placement problems, and explores the optimal hybrid strategy of data and pipeline parallelism. We also propose a new runtime scheduling algorithm to reduce device memory usage, which is orthogonal to re-computation approach and does not come at the expense of training throughput. Experiments show that DAPPLE planner consistently outperforms strategies generated by PipeDream's planner by up to 3.23x under synchronous training scenarios, and DAPPLE runtime outperforms GPipe by 1.6x speedup of training throughput and reduces the memory consumption of 12% at the same time.

연구 동기 및 목표

이질적인 GPU 클러스터에서 단일 GPU의 메모리 용량을 초과하는 대규모 DNN 모델의 훈련 도전 과제를 해결한다.
수렴성을 훼손하지 않으면서 동기 훈련에서 훈련 효율성과 장치 활용도를 향상시킨다.
재계산이나 다중 모델 파arameter 버전 저장에 의존하지 않고 파이프라인 훈련에서 메모리 소비를 줄인다.
주어진 모델 및 하드웨어 구성에 최적의 하이브리드 데이터 병렬성과 파이프라인 병렬성 전략을 자동으로 생성한다.
제한된 서버 간 대역폭(예: 25Gbps 이더넷)을 가진 환경에서도 확장 가능하고 고처리량 훈련을 가능하게 한다.

제안 방법

훈련 반복 시간을 최소화하기 위해 모델 레이어의 최적의 분할, 복제 및 장치에의 배치를 자동으로 결정하는 동기 파이프라인 기획자 제안.
중간 활성화 결과 저장을 방지함으로써 피크 메모리 사용량을 줄이는 새로운 런타임 스케줄링 알고리즘 도입. 이는 재계산과 수직적이다.
스테이지 수준의 복제를 통한 데이터 병렬성과 파이프라인 병렬성을 결합하여 부하 균형을 맞추고 장치 활용도를 향상시킨다.
모델 구조와 하드웨어 제약 조건을 기반으로 최적의 데이터 병렬성과 파이프라인 병렬성 조합을 동적으로 선택하는 하이브리드 전략 설계.
모든 글로벌 스텝에서 마이크로배치 간 기울기 동기화를 보장하면서 파이프라인 실행을 가능하게 하는 마이크로배치 스케줄링 기법 구현.
동기 제약 조건 하에서 종료 시점 훈련 시간을 최소화하기 위해 전략 평가 및 선택에 비용 모델을 활용

실험 결과

연구 질문

RQ1동기 훈련 환경에서 대규모 DNN 모델에 대해 최적의 하이브리드 데이터 병렬성과 파이프라인 병렬성 전략을 자동으로 생성할 수 있는가?
RQ2재계산을 증가시키거나 재계산이 필요 없이 런타임 스케줄러가 파이프라인 훈련에서 메모리 사용량을 줄일 수 있는가?
RQ3DAPPLE는 동기 설정에서 GPipe와 PipeDream에 비해 훈련 처리량과 메모리 효율성에서 얼마나 향상되는가?
RQ425Gbps 이더넷과 같은 저대역폭 인터커넥트에서 계층적 GPU 클러스터에서 DAPPLE는 어떻게 성능을 발휘하는가?
RQ5모델 파라미터가 단일 장치 메모리 용량을 초과할 경우, DAPPLE의 확장성은 모델 크기와 GPU 수에 대해 어떻게 되는가?

주요 결과

DAPPLE의 기획자는 PipeDream의 기획자에 의해 생성된 전략 대비 동기 훈련 환경에서 최대 3.23배의 속도 향상을 달성한다.
DAPPLE의 런타임 스케줄러는 재계산 없이 GPipe 대비 처리량을 1.6배 향상시키며, 메모리 소비량은 12% 감소시킨다.
재계산을 사용하여 8장의 V100 GPU에서 최대 55억 파라미터의 BERT 모델을 지원하며, 레이어 수 증가에 따라 최대 모델 크기의 선형 확장이 가능하다.
25Gbps 이더넷 환경에서 DAPPLE는 부드러운 확장성을 유지하며, 통신 병목 현상으로 인해 8개 이상의 GPU에서 성능 저하를 겪는 데이터 병렬화(DP) 기반 기법들을 능가한다.
모델 파라미터의 균형 잡힌 분포와 감소된 스테이지 간 활성화 오버헤드 덕분에 DAPPLE는 최대 93%의 GPU 활용도를 달성하며, 긴 파이프라인에서도 효과적으로 확장된다.
DAPPLE는 저대역폭의 마이크로머신 간 대역폭에 민감하지 않아, 이질적인 인터커넥트를 가진 대규모 클러스터에 매우 적합하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.