QUICK REVIEW

[논문 리뷰] PipeMare: Asynchronous Pipeline Parallel DNN Training

Bowen Yang, Jian Zhang|arXiv (Cornell University)|2019. 10. 09.

Advanced Neural Network Applications참고 문헌 18인용 수 26

한 줄 요약

PipeMare는 동기적 파이프라인 병렬 학습에서 흔히 발생하는 하드웨어 비효율성—예를 들어 파이프라인 버블과 가중치 복사본을 위한 추가 메모리—을 제거하면서도 모델 정확도를 유지하는 异步 파이프라인 병렬 학습 방법을 제안한다. 학습률 재스케줄링 히وري스틱과 오차 보정을 통해 PipeMare는 GPipe와 PipeDream과 같은 최신 동기적 방법보다 최대 4.3배 높은 파이프라인 활용도 또는 2.7배 낮은 메모리 사용량을 달성하며, ResNet 및 Transformer 아키텍처에서 유사한 모델 품질을 확보한다.

ABSTRACT

Pipeline parallelism (PP) when training neural networks enables larger models to be partitioned spatially, leading to both lower network communication and overall higher hardware utilization. Unfortunately, to preserve the statistical efficiency of sequential training, existing PP techniques sacrifice hardware efficiency by decreasing pipeline utilization or incurring extra memory costs. In this paper, we investigate to what extent these sacrifices are necessary. We devise PipeMare, a simple yet robust training method that tolerates asynchronous updates during PP execution without sacrificing utilization or memory, which allows efficient use of fine-grained pipeline parallelism. Concretely, when tested on ResNet and Transformer networks, asynchrony enables PipeMare to use up to $2.7 imes$ less memory or get $4.3 imes$ higher pipeline utilization, with similar model quality, when compared to state-of-the-art synchronous PP training techniques.

연구 동기 및 목표

파이프라인 병렬 딥뉴럴넷 학습에서 통계적 효율성을 유지하기 위해 동기 실행이 진정으로 필수적인지 조사하기.
동기적 파이프라인 병렬 학습에서 흔히 발생하는 하드웨어 비효율성—예를 들어 파이프라인 버블과 가중치 복사본을 위한 추가 메모리—을 제거하기.
현대 하드웨어 가속기에서 비동기성을 견디면서도 모델 품질을 훼손하지 않고 효율적이고 세밀한 파이프라인 병렬 학습을 가능하게 하기.
높은 하드웨어 활용도와 낮은 메모리 프로파일을 유지하면서도 경쟁 가능한 모델 정확도를 달성하는 견고한 학습 방법 개발하기.

제안 방법

동기 실행을 피하는 비동기 파이프라인 병렬 학습을 위한 모델을 도입하여 파이프라인 버블을 제거하고 메모리 오버헤드를 감소시킴.
기울기 지연에 기반해 학습률을 동적으로 조정하는 학습률 재스케줄링 히وري스틱을 적용하여 비동기 조건에서의 학습 안정화를 도모함.
비동기 업데이트로 인해 발생하는 통계적 오차를 줄이기 위해 오차 보정을 적용하여 모델 정확도 향상.
고정된 스테이지 수를 가진 마이크로배치를 사용하여 효율적인 파이프라인 실행을 가능하게 하면서 기울기 일致성 유지.
학습률 재스케줄링과 오차 보정 기법을 조합하여 활성화 재계산와 수직적으로 결합함으로써 메모리 프로파일을 추가로 감소.
실제 비동기 학습 조건을 시뮬레이션하기 위해 단절된 지수 분포를 활용해 스테이지별 기울기 지연을 모델링함.

실험 결과

연구 질문

RQ1비동기 파이프라인 병렬 학습이 모델 정확도를 훼손하지 않고도 높은 하드웨어 활용도와 낮은 메모리 사용량을 달성할 수 있는가?
RQ2파이프라인 병렬 학습에서 통계적 효율성을 유지하기 위해 진정으로 동기 실행이 필수적인가?
RQ3학습률 재스케줄링 히وري스틱이 비동기 파이프라인 환경에서 고정된 기울기 지연 조건에서 학습을 안정화시킬 수 있는가?
RQ4오차 보정 기법이 비동기 파이프라인 학습에서 모델 정확도를 어떻게 향상시키는가?
RQ5제안된 히وري스틱은 Hogwild! 스타일의 스트로스틱 비동기 학습과 같은 다른 비동기 학습 환경으로 일반화될 수 있는가?

주요 결과

PipeMare는 ResNet 및 Transformer 모델에서 GPipe와 PipeDream과 같은 동기적 방법 대비 최대 4.3배 높은 파이프라인 활용도를 달성한다.
PipeMare는 최신 동기적 파이프라인 병렬 학습 기법 대비 메모리 사용량을 최대 2.7배 감소시키며 모델 품질에 영향을 주지 않는다.
오차 보정을 적용한 PipeMare는 비동기 학습 조건에서도 CIFAR10(94.80% 테스트 정확도)과 IWSLT14(33.8 BLEU 점수)에서 강력한 모델 정확도를 확보한다.
학습률 재스케줄링 히وري스틱은 Hogwild! 스타일의 스트로스틱 비동기 환경에서 테스트 성능을 향상시켜 ResNet 및 Transformer 모델에서 동기 학습 정확도에 맞추어진다.
PipeMare는 활성화 재계산와 수직적으로 조합되어 활성화 메모리 프로파일을 추가로 감소시킬 수 있으며 정확도에 영향을 주지 않는다.
이 방법은 기존 동기 실행의 한계를 극복하고 현대 하드웨어 가속기에서 세밀한 파이프라인 병렬 학습을 효율적으로 구현할 수 있도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.