Skip to main content
QUICK REVIEW

[논문 리뷰] AMPNet: Asynchronous Model-Parallel Training for Dynamic Neural Networks

Alexander L. Gaunt, Matthew Johnson|arXiv (Cornell University)|2017. 05. 27.
Advanced Neural Network Applications참고 문헌 30인용 수 29
한 줄 요약

AMPNet는 인스턴스에 따라 제어 흐름이 달라지는 동적 신경망을 위한 이방식 모델 병렬 학습 알고리즘을 제안하며, 동기화 없이 기울기 갱신을 허용함으로써 고성능 하드웨어 활용도와 더 빠른 수렴을 가능하게 한다. 이는 새로운 중간 표현 형태를 통해 제어 흐름을 명시적으로 표현하고, 희소성과 동적 계산 그래프를 활용함으로써 QM9 데이터셋에서 최적화된 CPU/TensorFlow GPU 구현보다 9배 빠른 성능을 달성한다.

ABSTRACT

New types of machine learning hardware in development and entering the market hold the promise of revolutionizing deep learning in a manner as profound as GPUs. However, existing software frameworks and training algorithms for deep learning have yet to evolve to fully leverage the capability of the new wave of silicon. We already see the limitations of existing algorithms for models that exploit structured input via complex and instance-dependent control flow, which prohibits minibatching. We present an asynchronous model-parallel (AMP) training algorithm that is specifically motivated by training on networks of interconnected devices. Through an implementation on multi-core CPUs, we show that AMP training converges to the same accuracy as conventional synchronous training algorithms in a similar number of epochs, but utilizes the available hardware more efficiently even for small minibatch sizes, resulting in significantly shorter overall training times. Our framework opens the door for scaling up a new class of deep learning models that cannot be efficiently trained today.

연구 동기 및 목표

  • 비정형적이고 인스턴스에 따라 제어 흐름이 달라지는 동적 신경망을 처리하는 데 있어 기존 학습 프레임워크의 비효율성을 해결하기 위해.
  • 모델의 구조적 다양성으로 인해 미니배치가 불가능한 경우 하드웨어 활용도를 향상시키기 위해.
  • CPU 및 전용 하드웨어(예: FPGA)를 포함한 상호연결된 장치에서 동적 모델의 확장 가능한 분산 학습을 가능하게 하기 위해.
  • 동적 제어 흐름과 이방식 실행을 네이티브로 지원하는 중간 표현(IR)을 설계하기 위해.
  • 이방식 모델 병렬 학습이 동기화 방법과 유사한 정확도에 도달하면서도 훨씬 줄어든 학습 시간을 확보할 수 있음을 입증하기 위해.

제안 방법

  • 분기 및 병합 제어 흐름을 명시적으로 표현하는 구성 요소를 갖춘 새로운 중간 표현(IR)을 도입하여, 동적 계산을 정적 그래프로 인코딩할 수 있도록 한다.
  • 알고리즘 상태를 메시지 내에 캡슐화함으로써, 노드가 제어 의존성 없이 또는 중앙 집중식 스케줄링 없이 이방식으로 실행될 수 있도록 한다.
  • 루프 카운터, 엣지 ID 등 제어 변수를 메시지 페이로드에 통합하여 상태 기반 노드를 사용해 관리한다.
  • 앞서서와 뒤이어 계산을 각 인스턴스에서 별개로 진행할 수 있도록 허용함으로써 파ip라이닝 모델 병렬 처리를 지원하며, 이방식 파rameter 갱신을 가능하게 한다.
  • 데이터 집계 및 복제 표현을 IR에 통합하여 배치 효과를 복구하고 데이터 병렬 처리를 지원한다.
  • 다중 코어 CPU에서 실행되는 런타임이 여러 인스턴스를 동시에 처리하여 유휴 시간과 DRAM 대역폭 제약을 최소화한다.

실험 결과

연구 질문

  • RQ1이방식 모델 병렬 학습이 동기화 방법과 유사한 수렴 정확도를 달성하면서도 동적 신경망의 하드웨어 활용도를 향상시킬 수 있는가?
  • RQ2비정형 제어 흐름을 네이티브로 표현하고 효율적인 분산 실행을 가능하게 하기 위해 중간 표현을 어떻게 설계할 수 있는가?
  • RQ3이방식 학습이 동적 모델에서 파이프라인 포화도와 파라미터 갱신 빈도 사이의 상충 관계를 어느 정도 완화할 수 있는가?
  • RQ4제안된 IR과 런타임이 비정형 계산을 갖는 모델에서 CPU 및 전용 하드웨어(FPGA 등)에서 상당한 성능 향상을 달성할 수 있는가?
  • RQ5특히 저배치 크기 환경에서, AMPNet의 성능이 성숙한 프레임워크인 TensorFlow와 비교해 어떻게 되는가?

주요 결과

  • AMPNet는 QM9 데이터셋에서 게이트드 그래프 시퀀스 신경망(GGSNN)을 사용하여 수작업 최적화된 TensorFlow CPU 구현보다 9배 더 빠른 학습 속도를 달성한다.
  • AMPNet는 TITANX GPU에서 TensorFlow GPU 구현보다 2.1배 더 빠르며, GPU의 높은 피크 FLOPS에도 불구하고 희소성의 효과를 더 잘 활용하기 때문이다.
  • 작은 미니배치 크기에서도 동기화 학습과 유사한 테스트 정확도에 수렴하지만, 학습 시간은 크게 단축된다.
  • 간단한 추정에 따르면, 1 TFLOPS FPGA 네트워크에서 AMPNet는 QM9에서 초당 6,000개의 그래프를 처리할 수 있으며, CPU 런타임 대비 10배 빠른 성능을 기록한다.
  • IR는 학습과 추론 모두에 원활한 지원을 가능하게 하며, 데이터 집계 및 복제를 효율적으로 처리해 배치 효과를 복구할 수 있다.
  • 시스템은 계산과 파라미터 갱신을 분리함으로써 이방식 모델 병렬 처리가 동적 모델을 효과적으로 확장시킬 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.