[논문 리뷰] Parallax: Automatic Data-Parallel Training of Deep Neural Networks.
Parallax는 NLP 모델의 파rameter 희소성 특성을 활용하여 딥 네URAL 네트워크의 확장성을 향상시키는 데이터-병렬 학습 프레임워크이다. 파라미터 서버와 AllReduce 아키텍처를 결합하여 통신 오버헤드를 최소화하며, NLP 작업에서 48개 GPU에서 Horovod 대비 최대 6.02배 빠르고, Tensorflow 대비 2.8배 빠르게 성능을 내며, 이미지 분류 모델에서도 거의 최적에 가까운 성능을 달성한다.
The employment of high-performance servers and GPU accelerators for training deep neural network models have greatly accelerated recent advances in deep learning (DL). DL frameworks, such as TensorFlow, MXNet, and Caffe2, have emerged to assist DL researchers to train their models in a distributed manner. Although current DL frameworks scale well for image classification models, there remain opportunities for scalable distributed training on natural language processing (NLP) models. We found that current frameworks show relatively low scalability on training NLP models due to the lack of consideration to the difference in sparsity of model parameters. In this paper, we propose Parallax, a framework that optimizes data parallel training by utilizing the sparsity of model parameters. Parallax introduces a hybrid approach that combines Parameter Server and AllReduce architectures to optimize the amount of data transfer according to the sparsity. Experiments show that Parallax built atop TensorFlow achieves scalable training throughput on both dense and sparse models while requiring little effort from its users. Parallax achieves up to 2.8x, 6.02x speedup for NLP models than TensorFlow and Horovod with 48 GPUs, respectively. The training speed for the image classification models is equal to Horovod and 1.53x faster than TensorFlow.
연구 동기 및 목표
- 기존 딥 러닝 프레임워크가 파라미터 희소성 처리에 비효율적으로 대응함으로써 자연어 처리(NLP) 모델 학습의 확장성에 한계가 있음에 대응한다.
- 사용자 노력의 증가 없이도 희소(NLP) 및 조밀(이미지 분류) 모델 모두에 대해 데이터 병렬 학습 처리량을 향상시킨다.
- 모델의 희소성 수준에 따라 파라미터 서버 및 AllReduce 통신 패턴을 동적으로 전환하여 통신 효율성을 최적화한다.
- TensorFlow과 같은 주요 프레임워크와의 호환성을 유지하면서도 다양한 모델 유형에서 높은 성능을 달성한다.
제안 방법
- 모델 파라미터의 희소성 수준에 따라 파라미터 서버 또는 AllReduce를 선택하는 하이브리드 통신 아키텍처를 도입한다.
- 모델 파라미터를 희소 및 조밀 컴포넌트로 동적으로 분할하여 가장 효율적인 프로토콜을 통해 통신 경로를 라우팅한다.
- 작업자 간 파라미터 동기화 시 데이터 전송량을 최소화하기 위해 희소성 인식 스케줄링을 사용한다.
- 최소한의 코드 변경으로 기존 Tensorflow의 데이터 병렬 학습 파이프라인에 통합하여 TensorFlow와의 원활한 통합을 달성한다.
- 모델 구조 분석을 활용하여 각 레이어별 희소성 수준을 추정하고 통신 전략 선택을 안내한다.
- 희소 파라미터 업데이트의 대역폭 요구량이 낮은 점을 고려하여 통신 부하를 균형 있게 분배하고 대기 시간을 줄인다.
실험 결과
연구 질문
- RQ1NLP 모델 파라미터의 본질적 희소성에 대응하기 위해 데이터 병렬 학습 프레임워크를 어떻게 최적화할 수 있는가?
- RQ2다양한 수준의 모델 희소성에서 파라미터 서버 또는 AllReduce 중 어느 통신 전략이 더 높은 성능을 낼 수 있는가?
- RQ3하이브리드 통신 접근 방식은 분산 DNN 학습에서 통신 오버헤드를 얼마나 줄일 수 있는가?
- RQ4다양한 모델 유형에서 Parallax는 Horovod 및 Tensorflow와 같은 최첨단 프레임워크와 비교해 학습 처리량 측면에서 어떻게 성능을 내는가?
주요 결과
- Parallax는 NLP 모델에서 48개 GPU에서 Horovod 대비 최대 6.02배, Tensorflow 대비 2.8배 빠른 성능을 기록하여 확장성 향상 효과를 입증한다.
- 이미지 분류 모델에서는 Horovod와 유사한 성능을 기록하며, Tensorflow 대비 1.53배 더 빠르게 동작하여 다양한 모델 유형에 대한 우수한 일반화 능력을 보여준다.
- 하이브리드 통신 전략은 파라미터 희소성에 맞춰 동적으로 적응함으로써 통신 오버헤드를 효과적으로 줄이며, 학습 처리량 향상에 기여한다.
- Parallax는 희소성 인식 통신 라우팅을 자동으로 수행하므로 배포에 필요한 사용자 노력이 최소화된다.
- 희소 및 조밀 모델 모두에서 높은 확장성을 유지하며, 혼합 아키텍처 환경에서 기존 프레임워크를 능가하는 성능을 발휘한다.
- 희소성 인식 통신 라우팅은 특히 파라미터 희소성이 매우 변동성이 큰 모델에서 측정 가능한 성능 향상을 이끌어낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.