Skip to main content
QUICK REVIEW

[論文レビュー] Parallel training of Deep Neural Networks with Natural Gradient and Parameter Averaging

Daniel Povey, Xiaohui Zhang|arXiv (Cornell University)|Jan 1, 2014
Neural Networks and Applications参考文献 28被引用数 105
ひとこと要約

本論文は、複数のGPUまたはマルチコアマシン上で、周期的パラメータ平均化と自然勾配の効率的近似(NG-SGD)を用いた、ハードウェアに依存しない深層ニューラルネットワーク(DNN)のトレーニングフレームワークを提示する。この手法により、スケーラブルで通信量が少ない分散トレーニングが可能となり、単一マシン上での収束が著しく向上し、マルチノード環境でも性能を維持する。

ABSTRACT

We describe the neural-network training framework used in the Kaldi speech recognition toolkit, which is geared towards training DNNs with large amounts of training data using multiple GPU-equipped or multicore machines. In order to be as hardwareagnostic as possible, we needed a way to use multiple machines without generating excessive network traffic. Our method is to average the neural network parameters periodically (typically every minute or two), and redistribute the averaged parameters to the machines for further training. Each machine sees different data. By itself, this method does not work very well. However, we have another method, an approximate and efficient implementation of Natural Gradient for Stochastic Gradient Descent (NG-SGD), which seems to allow our periodic-averaging method to work well, as well as substantially improving the convergence of SGD on a single machine.

研究の動機と目的

  • 最小限のネットワークオーバーヘッドで複数マシンに跨る深層ニューラルネットワークトレーニングのスケーリングに挑戦する。
  • 大規模な音声認識ワークロードに適した、ハードウェアに依存しない分散トレーニング手法を開発する。
  • 単一マシンおよび分散環境下での確率的勾配降下法(SGD)の収束速度と安定性を向上させる。
  • 過度な通信コストを伴わずに分散ワーカー間での効果的なパラメータ同期を可能にする。

提案手法

  • 複数のトレーニングマシン間で、たとえば1〜2分ごとにモデルパラメータを周期的に平均化し、更新を同期する。
  • 平均化されたパラメータをすべてのワーカーに再配布し、分散システム全体での一貫性を維持する。
  • 確率的勾配降下法(NG-SGD)の効率的かつ近似された実装を導入し、トレーニングの安定化と高速化を図る。
  • NG-SGDの近似を用いることで、単一マシン上での収束を向上させるとともに、分散環境下でのパラメータ平均化の有効性を高める。
  • 各マシンが異なるデータサブセットをトレーニングしても、この手法が依然として有効であることを保証する。
  • 特定のネットワークトポロジーや通信パターンに依存しないように、フレームワークを設計する。

実験結果

リサーチクエスチョン

  • RQ1周期的なパラメータ平均化は、通信量を最小限に抑えながら効果的なDNNの分散トレーニングを可能にするか?
  • RQ2近似自然勾配法は、単一マシンおよび分散トレーニングの両環境で収束をどのように改善するか?
  • RQ3パラメータ平均化とNG-SGDの組み合わせは、分散環境下で標準的なSGDをどの程度上回るか?
  • RQ4このフレームワークは、複数のGPU搭載またはマルチコアマシンにスケーリングする際、性能と安定性を維持できるか?
  • RQ5通信頻度(たとえば1〜2分ごと)は、トレーニングの安定性と収束にどのような影響を与えるか?

主な発見

  • 周期的なパラメータ平均化と近似NG-SGDの組み合わせにより、複数マシン間での安定的かつ効果的な分散トレーニングが実現された。
  • 近似NG-SGD手法は、標準的なSGDと比較して、単一マシントレーニングにおける収束速度と安定性を顕著に向上させた。
  • パラメータ平均化のみでは良好な結果が得られないが、NG-SGD近似と組み合わせることで有効となる。
  • フレームワークは通信量を最小限に抑えつつ高いスケーラビリティを達成しており、異種または大規模なハードウェアクラスタに適している。
  • 各ワーカーが異なるデータをトレーニングしても、平均化によりモデルの一貫性が保たれるため、データシャーディングに対してもロバストである。
  • このアプローチはハードウェアに依存しないため、パフォーマンス劣化を伴わず、多様なコンピューティング環境への展開が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。