[논문 리뷰] GossipGraD: Scalable Deep Learning using Gossip Communication based Asynchronous Gradient Descent
GossipGraD는 한 단계당 O(1) 통신으로 감소하는 가십 기반 SGD를 도입하고, 대규모 GPU 클러스터에서 거의 완벽한 효율성을 달성하며 SGD 수준의 정확도를 유지한다.
In this paper, we present GossipGraD - a gossip communication protocol based Stochastic Gradient Descent (SGD) algorithm for scaling Deep Learning (DL) algorithms on large-scale systems. The salient features of GossipGraD are: 1) reduction in overall communication complexity from Θ(log(p)) for p compute nodes in well-studied SGD to O(1), 2) model diffusion such that compute nodes exchange their updates (gradients) indirectly after every log(p) steps, 3) rotation of communication partners for facilitating direct diffusion of gradients, 4) asynchronous distributed shuffle of samples during the feedforward phase in SGD to prevent over-fitting, 5) asynchronous communication of gradients for further reducing the communication cost of SGD and GossipGraD. We implement GossipGraD for GPU and CPU clusters and use NVIDIA GPUs (Pascal P100) connected with InfiniBand, and Intel Knights Landing (KNL) connected with Aries network. We evaluate GossipGraD using well-studied dataset ImageNet-1K (~250GB), and widely studied neural network topologies such as GoogLeNet and ResNet50 (current winner of ImageNet Large Scale Visualization Research Challenge (ILSVRC)). Our performance evaluation using both KNL and Pascal GPUs indicates that GossipGraD can achieve perfect efficiency for these datasets and their associated neural network topologies. Specifically, for ResNet50, GossipGraD is able to achieve ~100% compute efficiency using 128 NVIDIA Pascal P100 GPUs - while matching the top-1 classification accuracy published in literature.
연구 동기 및 목표
- SGD의 통신 병목을 해결하여 확장 가능한 분산 딥러닝을 고무한다.
- 수렴 특성을 유지하면서 상수 통신 복잡도를 달성하는 가십 기반 SGD 변형을 설계한다.
- 확산을 개선하고 과적합을 방지하기 위해 비동기식 데이터 셔플링과 파트너 로테이션을 도입한다.
- 실제 GPU/CPU 구현을 제공하고 대규모 데이터셋에서 평가한다.
- 수렴을 이론적으로 정당화하고 ImageNet에서 ResNet50/GoogLeNet으로 실증 성능을 검증한다.
제안 방법
- 매 단계에서 단일 파트너와 업데이트를 교환하고 log(p) 단계에 걸친 간접 확산으로 상수 통신 복잡도 O(1)의 GossipGraD를 제안한다.
- 그래디언트의 확산을 log(p) 단계로 보장하기 위해 계층적 가상 토폴로지(하이퍼큐브 또는 전파)를 사용한다.
- 모든 노드 간의 직접 확산을 가능하게 하기 위해 log(p) 단계마다 파트너 로테이션을 도입한다.
- 과적합을 방지하기 위해 샘플의 비동기 분산 메모리 셔플을 적용하고 셔플과 피드포워드를 겹치게 한다.
- MPI 비블로킹 호출과 선택적 비동기 진행 스레드를 사용하여 CPU(KNL) 및 GPU(Pascal P100)에서 GossipGraD를 구현한다.
- SGD와 유사한 로컬 최소값으로의 수렴을 보이는 이론적 수렴 주장을 제공한다.
실험 결과
연구 질문
- RQ1GossipGraD가 SGD와 유사한 수렴 특성을 유지하면서 상수 통신 복잡도를 달성할 수 있는가?
- RQ2비동기 확산 및 파트너 로테이션이 대규모에서 그래디언트 확산과 수렴을 개선하는가?
- RQ3GoogLeNet 및 ResNet50과 같은 표준 아키텍처를 사용한 ImageNet 규모 데이터셋에서 GossipGraD의 성능은 어떠한가?
- RQ4대규모 GPU/CPU 클러스터에서 GossipGraD의 확장 시 달성 가능한 계산 효율성은 무엇인가?
주요 결과
- GossipGraD는 매 단계 O(1) 통신을 달성하고 통신과 계산의 중복 수행을 지원한다.
- 128 NVIDIA Pascal P100 GPU에서 GossipGraD는 ResNet50에 대해 약 100% 계산 효율성을 달성한다.
- GossipGraD는 ImageNet 실험에서 ResNet50과 GoogLeNet의 1등 정확도와 일치한다.
- 실험에는 ImageNet-1K, GoogLeNet 및 ResNet50이 Pascal GPU와 Intel KNL에서 모두 수행되었고, 통신과 계산의 완전한 중첩이 달성되었다.
- 이론적 분석과 실험 결과는 GossipGraD가 SGD와 유사한 로컬 최소값으로 수렴함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.