QUICK REVIEW

[論文レビュー] Experiments on Parallel Training of Deep Neural Network using Model Averaging

Hang Su, Haoyu Chen|arXiv (Cornell University)|Jul 5, 2015

Neural Networks and Applications参考文献 14被引用数 56

ひとこと要約

本論文では、複数のGPUとMPIを用いた深層ニューラルネットワークの並列学習のためのモデル平均化手法を提案しており、顕著な通信オーバーヘッドなしに頻繁なパラメータ同期を可能にしている。300時間分のSwitchboardデータセットにおいて、16および32のGPUを用いることで、それぞれ9.3倍および17倍の高速化を達成し、精度の低下は最小限に抑えられ、NG-SGDとRBM事前学習がモデル平均化フレームワーク内での学習安定性と収束性を顕著に向上させることを示している。

ABSTRACT

In this work we apply model averaging to parallel training of deep neural network (DNN). Parallelization is done in a model averaging manner. Data is partitioned and distributed to different nodes for local model updates, and model averaging across nodes is done every few minibatches. We use multiple GPUs for data parallelization, and Message Passing Interface (MPI) for communication between nodes, which allows us to perform model averaging frequently without losing much time on communication. We investigate the effectiveness of Natural Gradient Stochastic Gradient Descent (NG-SGD) and Restricted Boltzmann Machine (RBM) pretraining for parallel training in model-averaging framework, and explore the best setups in term of different learning rate schedules, averaging frequencies and minibatch sizes. It is shown that NG-SGD and RBM pretraining benefits parameter-averaging based model training. On the 300h Switchboard dataset, a 9.3 times speedup is achieved using 16 GPUs and 17 times speedup using 32 GPUs with limited decoding accuracy loss.

研究の動機と目的

複数のGPUを用いた深層ニューラルネットワークの効率的で並列学習を、モデル平均化を用いて調査すること。
NG-SGDおよびRBM事前学習がモデル平均化に基づく学習に与える影響を評価すること。
分散環境下での学習率スケジューリング、ミニバッチサイズ、および平均化頻度の最適な設定を特定すること。
通信オーバーヘッドを最小限に抑えながら、モデルの精度を維持する分散学習を実現すること。
MPIとマルチGPU環境を用いた頻繁なモデル平均化によるDNN学習のスケーリング可能性を検討すること。

提案手法

学習データを複数のGPUに分散し、各ノードで局所的なSGD更新を実行する。
MPIを用いて低遅延通信を実現し、数個のミニバッチごとにノード間でモデルパラメータを平均化することで同期を図る。
平均化中の収束性とパラメータの安定性を向上させるために、自然勾配確率的勾配降下法（NG-SGD）を用いる。
ネットワーク重みの初期化を向上させ、分散学習環境下での一般化性能を向上させるためにRBM事前学習を適用する。
学習ノード数に応じてスケーリングされる学習率スケジュールを実装し、有効なパラメータ更新を維持する。
MPIを用いたメモリ内パラメータ交換により、平均化中にデータI/Oを回避し、頻繁な同期を可能にする。

実験結果

リサーチクエスチョン

RQ1MPIによる頻繁な同期を伴うモデル平均化は、複数のGPUに跨る効果的でスケーラブルなDNN学習を可能にするか？
RQ2NG-SGDおよびRBM事前学習は、モデル平均化フレームワーク内での収束性と精度にどのように影響を与えるか？
RQ3並列DNN学習における、平均化頻度、ミニバッチサイズ、および学習率スケジュールの最適なバランスは何か？
RQ4頻繁なモデル平均化は、大規模DNN学習において高いスループットを達成しつつ、高い精度を維持できるか？
RQ5本手法は、語りかけ認識タスクにおけるスループットとデコード性能の観点から、既存の手法と比較して優れているか？

主な発見

16のGPUを用いる場合、300時間分のSwitchboardデータセットで9.3倍の高速化が達成され、WERの低下は0.3〜0.9ポイントにとどまる。
32のGPUを用いる場合、17倍の高速化が達成され、モデル平均化フレームワークにおける強いスケーラビリティが示された。
NG-SGDは学習の安定性と収束性を顕著に向上させ、WERと高速化の両面で標準的なSGDを上回った。
RBM事前学習は、モデル平均化と組み合わせることで、特に初期学習段階でのモデル性能を向上させた。
平均化頻度を10ミニバッチにした場合、WERが15.1（SWB）となり、20にした場合の15.8より良好であった。これは、より頻繁な平均化が精度向上に寄与することを示している。
指数関数的学習率スケジューリングはNewbobスケジュールと同等の性能を示したが、より多くのハイパーパrameterチューニングを要した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。