[논문 리뷰] Massively Distributed SGD: ImageNet/ResNet-50 Training in a Flash
본 논문은 배치 크기 제어, 라벨 스무딩, 2D-Torus all-reduce를 활용하여 ImageNet/ResNet-50을 대규모로 학습시키는 것을 보여주며, Neural Network Libraries (NNL)로 ABCI 클러스터에서 122초 학습을 달성한다.
Scaling the distributed deep learning to a massive GPU cluster level is challenging due to the instability of the large mini-batch training and the overhead of the gradient synchronization. We address the instability of the large mini-batch training with batch-size control and label smoothing. We address the overhead of the gradient synchronization with 2D-Torus all-reduce. Specifically, 2D-Torus all-reduce arranges GPUs in a logical 2D grid and performs a series of collective operation in different orientations. These two techniques are implemented with Neural Network Libraries (NNL). We have successfully trained ImageNet/ResNet-50 in 122 seconds without significant accuracy loss on ABCI cluster.
연구 동기 및 목표
- 대규모 미니배치 학습의 불안정성 해결.
- 대규모 GPU 클러스터에서 그래디언트 동기화 오버헤드 감소.
- 빠르고 확장 가능한 CNN 학습을 가능하게 하는 실용적 기술 제안.
- 대규모 클러스터에서 ImageNet/ResNet-50 학습의 고속성 시연.
제안 방법
- 대규모 미니배치 학습의 안정화를 위해 배치 크기 제어를 사용.
- 대규모 배치에서 일반화 능력을 향상시키기 위해 라벨 스무딩을 적용.
- 2D 격자에서의 GPUs를 조직하여 집합 연산을 효율적으로 수행하는 2D-Torus all-reduce를 구현.
- 위 기술들을 구현하기 위해 Neural Network Libraries (NNL)를 활용.
- ResNet-50 아키텍처를 가진 ImageNet에서 평가.
- ABCI 클러스터에서 학습 시간 및 정확도 영향 보고.
실험 결과
연구 질문
- RQ1대규모에서 분산 SGD를 위한 대규모 미니배치 학습의 안정화 방법은 무엇인가?
- RQ2대규모 GPU 클러스터에서 그래디언트 동기화 오버헤드를 효과적으로 감소시킬 수 있는가?
- RQ3제안된 기술로 ImageNet/ResNet-50 학습에서 어떤 성능 향상을 얻을 수 있는가?
- RQ4분산 설정에서 배치 크기 제어와 라벨 스무딩을 적용할 때 속도와 정확도 간의 트레이드오프는 무엇인가?
주요 결과
- ABCI 클러스터에서 122초 만에 ImageNet/ResNet-50 학습이 가능하고, 정확도 손실은 크지 않다.
- 배치 크기 제어와 라벨 스무딩이 매우 큰 미니배치로 인한 불안정을 완화한다.
- 2D-Torus all-reduce가 2D 격자에서의 집합 연산으로 그래디언트 동기화 오버헤드를 줄인다.
- Neural Network Libraries (NNL)에서의 기법 구현으로 확장 가능한 분산 SGD가 가능하다.
- 대 규모에서 실용적인 대규모 CNN 학습 경로를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.