QUICK REVIEW

[논문 리뷰] Exascale Deep Learning for Scientific Inverse Problems

Nouamane Laanait, Joshua Romero|arXiv (Cornell University)|2019. 09. 24.

Machine Learning in Materials Science참고 문헌 30인용 수 29

한 줄 요약

이 논문은 동기 분산 딥러닝을 위한 새로운 통신 전략—분산형 그래디언트 감소 조율 및 계산 그래프 인지 그룹화—을 제안하며, Summit 슈퍼컴퓨터에서 27,600개의 NVIDIA V100 GPU를 통해 거의 선형적 스케일링(0.93)을 달성한다. 이 방법은 0.5PB 크기의 데이터셋에서 완전 컨볼루션 신경망을 효율적으로 학습시켜 엑사스케일 성능(2.15(4) EFLOPS)을 구현하고, 전자 衍생 회절 데이터로부터 원자 수준 정확도로 재구성하는 데 기여한다.

ABSTRACT

We introduce novel communication strategies in synchronous distributed Deep Learning consisting of decentralized gradient reduction orchestration and computational graph-aware grouping of gradient tensors. These new techniques produce an optimal overlap between computation and communication and result in near-linear scaling (0.93) of distributed training up to 27,600 NVIDIA V100 GPUs on the Summit Supercomputer. We demonstrate our gradient reduction techniques in the context of training a Fully Convolutional Neural Network to approximate the solution of a longstanding scientific inverse problem in materials imaging. The efficient distributed training on a dataset size of 0.5 PB, produces a model capable of an atomically-accurate reconstruction of materials, and in the process reaching a peak performance of 2.15(4) EFLOPS$_{16}$.

연구 동기 및 목표

초고성능 컴퓨터에서 데이터 병렬 분산 딥러닝의 통신 병목 현상을 해결하여 스케일링 비효율성이 누적되고 학습의 탄소 발자국이 증가하는 문제를 해결한다.
계산과 통신 간의 오버랩을 최적화하는 통신 전략을 개발하여 대규모 GPU 클러스터에서 거의 선형적 스케일링을 달성한다.
대규모 과학적 데이터셋(0.5PB)에서 대규모 딥뉴럴넷의 학습을 가능하게 하여 재료 영상 분야의 오랜 역문제를 해결한다.
엑사스케일 딥러닝을 활용해 과학적 역문제, 예를 들어 전자현미경에서의 위상 문제를 근사해 해결할 수 있는 가능성을 입증한다.
초고성능 및 확장 가능한 학습을 초고성능 컴퓨팅 인프라에서 달성하여 딥러닝을 과학적 시뮬레이션에 통합하는 기반을 마련한다.

제안 방법

노드 간 그래디언트 집계를 지능적으로 스케줄링하여 동기화 오버헤드를 최소화하는 분산형 그래디언트 감소 조율을 구현한다.
모델의 계산 그래프 구조에 기반해 그래디언트 텐서를 그룹화하는 계산 그래프 인지 그룹화 기법을 도입하여 통신 작업을 통합한다.
Summit 슈퍼컴퓨터에서 노드 내부 통신에는 NCCL, 노드 간 통신에는 IBM Spectrum-MPI를 활용한 계층적 Allreduce 전략을 적용한다.
글로벌 파일 시스템에서의 I/O 병목을 방지하기 위해 노드 로컬 NVMe 스토리지 사용으로 데이터 로딩을 선형 증가시키며 확장 가능하게 한다.
데이터와 모델 복제본을 동시에 확장하는 분산 학습 파이프라인을 설계하여 각 GPU가 0.5PB 데이터셋의 고유한 부분집합을 처리하도록 보장한다.
FP16 정밀도 학습을 적용하고 V100 GPU의 텐서 코어를 활용하여 계산 처리량을 극대화하고 통신 부담을 줄인다.

실험 결과

연구 질문

RQ127,000개 이상의 GPU를 갖춘 슈퍼컴퓨터에서 새로운 그래디언트 감소 전략이 데이터 병렬 분산 학습에서 거의 선형적 스케일링을 달성할 수 있는가?
RQ2분산형 그래디언트 조율과 계산 그래프 인지 그룹화의 조합이 계산과 통신 간의 오버랩을 얼마나 향상시키는가?
RQ3고성능과 모델 정확도를 유지하면서 분산 딥러닝이 0.5PB의 과학적 영상 데이터에 얼마나 확장될 수 있는가?
RQ4이러한 대규모 분산 시스템에서 학습된 딥뉴럴넷이 전자 衍생 회절 데이터의 역문제에서 원자 수준 정확도로 재료를 재구성할 수 있는가?
RQ5데이터 및 계산 규모 증가가 학습된 모델의 일반화 능력과 재구성 품질에 어떤 영향을 미치는가?

주요 결과

제안된 통신 전략은 Summit 슈퍼컴퓨터에서 27,600개의 NVIDIA V100 GPU를 대상으로 0.93의 스케일링 효율을 달성하여 거의 선형적 스케일링을 입증했다.
학습 중 FP16 정밀도로 최고 성능 2.15(4) EFLOPS를 기록하여 과학적 응용을 위한 엑사스케일 딥러닝의 새로운 이정표를 세웠다.
4096개 노드(비교 기준 128개 노드)에서 학습한 결과 전자 밀도 재구성의 평균 테스트 오차가 감소하여 데이터 및 계산 규모 증가에 따라 모델 일반화 능력 향상을 확인했다.
1024개 노드에서 학습한 모델은 128개 노드 모델보다 눈에 띄게 더 정확한 재구성을 보였으며, 이미지 시야 전역에서 참값과 더 가까운 일致를 보였다.
노드 로컬 NVMe 스토리지 사용으로 데이터 로딩이 선형 확장 가능해졌으며, 글로벌 파일 시스템에서 직접 I/O를 수행할 경우 발생하는 10배 성능 저하를 피할 수 있었다.
그래디언트 감소 기법은 Horovod(Bitvector Allreduce)에 통합되었으며, 그룹화 기능은 검토 중이어서 이 연구를 넘어서도 광범위한 적용 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.