Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring Hidden Dimensions in Parallelizing Convolutional Neural Networks

Zhihao Jia, Sina Lin|arXiv (Cornell University)|2018. 02. 14.
Advanced Neural Network Applications참고 문헌 21인용 수 51
한 줄 요약

각 CNN 레이어가 고유의 병렬화 전략을 사용할 수 있게 하는 레이어-와이즈 병렬화를 도입하여 그래프 기반 비용 모델로 레이어별 실행을 최적화하고 처리량을 향상시키며 정확도 손실 없이 통신을 줄인다.

ABSTRACT

The past few years have witnessed growth in the computational requirements for training deep convolutional neural networks. Current approaches parallelize training onto multiple devices by applying a single parallelization strategy (e.g., data or model parallelism) to all layers in a network. Although easy to reason about, these approaches result in suboptimal runtime performance in large-scale distributed training, since different layers in a network may prefer different parallelization strategies. In this paper, we propose layer-wise parallelism that allows each layer in a network to use an individual parallelization strategy. We jointly optimize how each layer is parallelized by solving a graph search problem. Our evaluation shows that layer-wise parallelism outperforms state-of-the-art approaches by increasing training throughput, reducing communication costs, achieving better scalability to multiple GPUs, while maintaining original network accuracy.

연구 동기 및 목표

  • 이질적인 계층 특성으로 인한 CNN 레이어 간 유연한 병렬화의 필요성 제시.
  • 레이어별 구성을 가능하게 하고 네트워크 정확도를 보존하기 위해 레이어-와이즈 병렬화를 제안한다.
  • 전역적으로 최적의 레이어별 병렬화 전략을 찾기 위한 비용 모델과 그래프 탐색 알고리즘을 개발한다.
  • 표준 CNN에서 최첨단 방법보다 처리량 및 통신 향상을 입증한다.

제안 방법

  • 각 레이어의 병렬화 구성을 병렬화 차원의 차수들의 곱으로 정의한다.
  • t_c, t_x, t_s를 이용해 연산 및 통신 비용을 모델링하여 레이어별 및 레이어 간 타이밍을 추정한다.
  • 동적 계획법을 사용하여 디바이스 그래프와 계산 그래프 위의 최적화를 그래프 탐색 문제로 변환한다.
  • 최적의 전략을 보존하면서 계산 그래프를 단순화하기 위해 노드 및 간 소거 축소를 적용한다.
  • 비용 모델 하에서 전역적으로 최적의 레이어별 전략을 계산하는 알고리즘(Algorithm 1)을 제공한다.

실험 결과

연구 질문

  • RQ1레이어-와이즈 병렬화가 CNN 학습에서 단일 전략(데이터 병렬화 또는 모델 병렬화)보다 더 나은 성능을 발휘할 수 있는가?
  • RQ2비용 모델과 그래프 기반 탐색이 초당 시간(每-iteration time)을 최소화하는 레이어별 병렬화 구성을 어떻게 식별할 수 있는가?
  • RQ3표준 CNN에서 레이어별 병렬화가 처리량과 디바이스 간 통신에 미치는 영향은 무엇인가?
  • RQ4제안된 접근법은 대형 GPU 클러스터와 다양한 CNN 아키텍처에 얼마나 확장 가능한가?
  • RQ5학습된 전략이 원래 네트워크의 정확도를 보존하는가?

주요 결과

  • 레이어-와이즈 병렬화는 AlexNet, VGG-16, Inception-v3에서 16 GPUs를 사용한 상태의 최첨단 전략보다 1.4–2.2배 더 빠른 학습 처리량을 제공합니다.
  • 레이어-와이즈 병렬화는 데이터 및 모델 병렬화에 비해 통신 비용을 1.3–23.0배 감소시킵니다.
  • 레이어-와이즈 병렬화는 더 나은 확장성을 달성하며, 예를 들어 Inception-v3의 경우 1대에서 16대 GPU로의 속도up가 15.5배로 다른 전략의 최대 11.2배보다 큽니다.
  • 비용 모델은 테스트 구성 전반에서 한 단계당 실행 시간을 측정값의 약 10% 이내로 추정합니다.
  • 해당 접근법은 데이터/모델 병렬화와 동일한 네트워크를 학습시키며 원래 네트워크 정확도를 보존하면서 런타임 성능을 개선합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.