QUICK REVIEW

[논문 리뷰] Parallel training of Deep Neural Networks with Natural Gradient and Parameter Averaging

Daniel Povey, Xiaohui Zhang|arXiv (Cornell University)|2014. 01. 01.

Neural Networks and Applications참고 문헌 28인용 수 105

한 줄 요약

이 논문은 다수의 GPU 또는 다중 코어 머신에서 깊이 신경망(DNNs)을 훈련하기 위한 하드웨어에 종속되지 않는 프레임워크를 제안한다. 이는 주기적인 파라미터 평균화와 자연 경사(Natural Gradient)의 효율적 근사(Natural Gradient, NG-SGD)를 사용한다. 이 방법은 네트워크 통신 부하를 최소화하면서도 확장 가능한 분산 훈련을 가능하게 하며, 단일 머신 환경에서 수렴 성능을 크게 향상시키고, 다중 노드 환경에서도 성능을 유지한다.

ABSTRACT

We describe the neural-network training framework used in the Kaldi speech recognition toolkit, which is geared towards training DNNs with large amounts of training data using multiple GPU-equipped or multicore machines. In order to be as hardwareagnostic as possible, we needed a way to use multiple machines without generating excessive network traffic. Our method is to average the neural network parameters periodically (typically every minute or two), and redistribute the averaged parameters to the machines for further training. Each machine sees different data. By itself, this method does not work very well. However, we have another method, an approximate and efficient implementation of Natural Gradient for Stochastic Gradient Descent (NG-SGD), which seems to allow our periodic-averaging method to work well, as well as substantially improving the convergence of SGD on a single machine.

연구 동기 및 목표

최소한의 네트워크 오버헤드로 다수의 머신 간에 깊이 신경망 훈련을 확장하는 데 도전하는 문제를 해결한다.
대규모 음성 인식 워크로드에 적합하고 하드웨어에 종속되지 않는 분산 훈련 방법을 개발한다.
단일 머신 및 분산 환경 모두에서 확률적 경사 하강법(SGD)의 수렴 속도와 안정성을 향상시킨다.
과도한 통신 비용 없이도 분산 워커 간에 효과적인 파라미터 동기화를 가능하게 한다.

제안 방법

여러 훈련 머신 간에 주기적으로 모델 파라미터를 평균화(예: 1~2분 간격)하여 업데이트를 동기화한다.
평균화된 파라미터를 모든 워커에 재배포하여 분산 시스템 전반에서 일관성을 유지한다.
확률적 경사 하강법(SGD)을 위한 자연 경사의 효율적이고 근사적인 구현 방식인 NG-SGD를 도입하여 훈련의 안정성과 속도를 향상시킨다.
NG-SGD 근사법을 활용해 단일 머신에서의 수렴 성능을 향상시키고, 분산 환경에서의 파라미터 평균화 효과를 강화한다.
각 머신이 서로 다른 데이터 서브셋을 훈련할 경우에도 이 방법이 효과를 유지하도록 보장한다.
특정 네트워크 구조나 통신 패턴에 의존하지 않도록 하드웨어에 종속되지 않는 프레임워크를 설계한다.

실험 결과

연구 질문

RQ1주기적인 파라미터 평균화가 최소한의 통신 부하로 효과적인 분산 DNN 훈련을 가능하게 할 수 있는가?
RQ2근사 자연 경사 방법이 단일 머신 및 분산 훈련 환경 모두에서 수렴 성능에 어떤 영향을 미치는가?
RQ3파라미터 평균화와 NG-SGD의 조합이 분산 환경에서 표준 SGD보다 얼마나 뛰어난 성능을 보이는가?
RQ4여러 GPU 장착 또는 다중 코어 머신으로 확장할 경우 이 프레임워크가 성능과 안정성을 유지할 수 있는가?
RQ5통신 빈도(예: 1~2분 간격)가 훈련의 안정성과 수렴에 어떤 영향을 미치는가?

주요 결과

주기적인 파라미터 평균화와 근사 NG-SGD의 조합은 다수의 머신에서 안정적이고 효과적인 분산 훈련을 가능하게 한다.
근사 NG-SGD 방법은 표준 SGD에 비해 단일 머신 훈련에서 수렴 속도와 안정성을 크게 향상시킨다.
파라미터 평균화만으로는 양호한 성능을 내지 못하지만, NG-SGD 근사와 조합하면 효과적으로 기능한다.
프레임워크는 네트워크 트래픽을 최소화하면서도 높은 확장성을 달성하여 이질적 또는 대규모 하드웨어 클러스터에 적합하다.
각 워커가 서로 다른 데이터를 훈련하면서도 평균화를 통해 모델 일관성을 유지할 수 있어 데이터 스플리팅에 대해 강건하다.
이 방법은 하드웨어에 종속되지 않아 다양한 컴퓨팅 환경에 배포해도 성능 저하 없이 활용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.