QUICK REVIEW

[논문 리뷰] Poseidon: A System Architecture for Efficient GPU-based Deep Learning on Multiple Machines

Hao Zhang, Zhiting Hu|arXiv (Cornell University)|2015. 12. 19.

Advanced Neural Network Applications참고 문헌 23인용 수 43

한 줄 요약

Poseidon는 일반 이더넷만을 사용하여 다수의 GPU를 탑재한 머신 간에 효율적이고 확장 가능한 딥러닝 훈련을 가능하게 하는 시스템 아키텍처이다. 삼중 수준의 하이브리드 아키텍처, 대기 없는 역전파 알고리즘(DWBP), 구조 인식 통신 프로토콜(SACP)을 통합함으로써, 8개 노드에서 AlexNet에 대해 최대 6배의 성능 향상을, GoogLeNet에 대해 4배의 성능 향상을 달성하며 선형 성능 향상에 가까운 성능을 유지하면서도 수렴성과 정확성을 유지한다.

ABSTRACT

Deep learning (DL) has achieved notable successes in many machine learning tasks. A number of frameworks have been developed to expedite the process of designing and training deep neural networks (DNNs), such as Caffe, Torch and Theano. Currently they can harness multiple GPUs on a single machine, but are unable to use GPUs that are distributed across multiple machines; as even average-sized DNNs can take days to train on a single GPU with 100s of GBs to TBs of data, distributed GPUs present a prime opportunity for scaling up DL. However, the limited bandwidth available on commodity Ethernet networks presents a bottleneck to distributed GPU training, and prevents its trivial realization. To investigate how to adapt existing frameworks to efficiently support distributed GPUs, we propose Poseidon, a scalable system architecture for distributed inter-machine communication in existing DL frameworks. We integrate Poseidon with Caffe and evaluate its performance at training DNNs for object recognition. Poseidon features three key contributions that accelerate DNN training on clusters: (1) a three-level hybrid architecture that allows Poseidon to support both CPU-only and GPU-equipped clusters, (2) a distributed wait-free backpropagation (DWBP) algorithm to improve GPU utilization and to balance communication, and (3) a structure-aware communication protocol (SACP) to minimize communication overheads. We empirically show that Poseidon converges to same objectives as a single machine, and achieves state-of-art training speedup across multiple models and well-established datasets using a commodity GPU cluster of 8 nodes (e.g. 4.5x speedup on AlexNet, 4x on GoogLeNet, 4x on CIFAR-10). On the much larger ImageNet22K dataset, Poseidon with 8 nodes achieves better speedup and competitive accuracy to recent CPU-based distributed systems such as Adam and Le et al., which use 10s to 1000s of nodes.

연구 동기 및 목표

일반 이더넷 네트워크만을 사용하여 다수의 GPU를 탑재한 머신 간에 딥러닝 신경망의 효율적 분산 훈련을 가능하게 하기 위해.
일반 클러스터에서의 제한된 기계 간 대역폭으로 인한 통신 병목 현상을 극복하기 위해.
기존의 Caffe와 같은 단일 머신 딥러닝 프레임워크에 완전한 재작성 없이도 분산 GPU 기능을 통합하기 위해.
다중 노드 GPU 클러스터에서 고성능 GPU 활용도를 극대화하고 통신 오버헤드를 최소화하기 위해.
데이터 병행 처리를 통해 다수의 머신으로 훈련을 확장할 때 수렴성과 정확성을 유지하기 위해.

제안 방법

CPU 전용 및 GPU 탑재 클러스터를 모두 지원하는 삼중 수준 하이브리드 아키텍처를 도입하여 일반 하드웨어에서의 유연한 배포를 가능하게 한다.
통신을 계산과 겹치는 분산 대기 없는 역전파(DWBP) 알고리즘을 적용하여 공백 시간을 줄이고 GPU 활용도를 향상시킨다.
네트워크 구조와 레이어 구조를 기반으로 매개변수 동기화를 지능적으로 구성함으로써 통신 오버헤드를 최소화하는 구조 인식 통신 프로토콜(SACP)을 설계한다.
통제된 지연을 允허하는 스트레인 동기화 병행(SSP) 일관성 모델을 사용하여 대역폭 활용도를 높이고 동기화 지연을 감소시킨다.
기존 딥러닝 프레임워크(예: Caffe)에 분산 통신 및 동기화 원자성(primitive)을 확장하여 통합적으로 통합한다.
배치 동기 병행(BSP) 및 SSP 모드를 사용하여 수렴 안정성과 훈련 속도 사이의 균형을 맞추며, SSP는 부분적인 비동기성을 허용하여 처리량을 향상시킨다.

실험 결과

연구 질문

RQ1기존 딥러닝 프레임워크는 어떻게 일반 이더넷만을 사용하여 다수의 머신 간에 분산 GPU를 효율적으로 활용할 수 있도록 확장될 수 있는가?
RQ2다중 GPU, 다중 노드 딥러닝 클러스터에서 발생하는 통신 병목 현상을 극복하기 위해 어떤 시스템 수준 최적화가 필요한가?
RQ3하이브리드 아키텍처는 CPU 전용 및 GPU 탑재 클러스터를 모두 지원하면서도 고성능과 확장성을 유지할 수 있는가?
RQ4대기 없는 역전파와 구조 인식 통신이 훈련 지연을 얼마나 줄이고 GPU 활용도를 얼마나 향상시킬 수 있는가?
RQ5SSP 일관성 모델은 일반 하드웨어에서의 분산 딥러닝에서 수렴성, 정확성, 성능 향상에 어떤 영향을 미치는가?

주요 결과

SACP를 사용할 경우, 8개 GPU 노드에서 AlexNet에 대해 4.5배의 성능 향상을, GoogLeNet에 대해 4배의 성능 향상을 달성하며, AlexNet의 경우 SACP로 인해 최대 6배의 성능 향상이 이루어진다.
DWBP와 SACP를 활성화한 Poseidon은 8개 노드로 확장할 경우 최대 80%의 처리량 손실이 발생하던 상태에서 25% 미만으로 감소시켜 근접한 선형 성능 향상을 달성한다.
대규모 ImageNet 22K 데이터셋에서 Poseidon은 8개 노드로도 최근의 CPU 기반 시스템(예: Adam 및 Le et al.)보다 경쟁 가능한 정확도를 달성하고 더 높은 성능 향상을 기록하며, 훨씬 적은 수의 노드를 사용한다.
AlexNet에서 4개 노드로 테스트한 결과, SSP 일관성 모델은 처리량을 최대 27% 향상시켜 3.0에서 3.8의 성능 향상으로 이어졌으며, 느린 노드에 대한 민감도가 감소함을 입증한다.
Poseidon는 단일 머신 훈련과 동일한 목적 함수 값으로 수렴함을 확인하여, 분산 훈련이 모델 정확성과 안정성을 유지함을 입증한다.
매개변수 행렬 재구성으로 인한 약간의 계산 오버헤드가 발생하지만, SACP는 깊은 모델(예: AlexNet)에서 특히 뚜렷한 네트워크 성능 향상을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.