Skip to main content
QUICK REVIEW

[論文レビュー] Parallax: Automatic Data-Parallel Training of Deep Neural Networks.

Soojeong Kim, Gyeong-In Yu|arXiv (Cornell University)|Aug 8, 2018
Advanced Neural Network Applications参考文献 21被引用数 3
ひとこと要約

Parallax は、自然言語処理(NLP)モデルにおけるパラメータのスパarsityを活用することで、深層ニューラルネットワークのスケーラビリティを向上させるデータ並列トレーニングフレームワークである。パラメータサーバーとAllReduceアーキテクチャを統合することで通信オーバーヘッドを最小限に抑え、NLPタスクにおいて48 GPUでHorovodに比べて最大6.02倍、TensorFlowに比べて2.8倍の高速化を達成した。画像分類モデルに対してもほぼ最適に近いパフォーマンスを発揮した。

ABSTRACT

The employment of high-performance servers and GPU accelerators for training deep neural network models have greatly accelerated recent advances in deep learning (DL). DL frameworks, such as TensorFlow, MXNet, and Caffe2, have emerged to assist DL researchers to train their models in a distributed manner. Although current DL frameworks scale well for image classification models, there remain opportunities for scalable distributed training on natural language processing (NLP) models. We found that current frameworks show relatively low scalability on training NLP models due to the lack of consideration to the difference in sparsity of model parameters. In this paper, we propose Parallax, a framework that optimizes data parallel training by utilizing the sparsity of model parameters. Parallax introduces a hybrid approach that combines Parameter Server and AllReduce architectures to optimize the amount of data transfer according to the sparsity. Experiments show that Parallax built atop TensorFlow achieves scalable training throughput on both dense and sparse models while requiring little effort from its users. Parallax achieves up to 2.8x, 6.02x speedup for NLP models than TensorFlow and Horovod with 48 GPUs, respectively. The training speed for the image classification models is equal to Horovod and 1.53x faster than TensorFlow.

研究の動機と目的

  • パラメータスパarsityの処理が非効率であるため、既存のディープラーニングフレームワークが自然言語処理(NLP)モデルのトレーニングにおいてスケーラビリティに限界を示している問題に対処する。
  • ユーザーの作業負荷を大幅に増やさずに、スパース(NLP)およびディンス(画像分類)の両方のモデルにおけるデータ並列トレーニングスループットを向上させる。
  • モデルのスパarsityに応じて、パラメータサーバーとAllReduce通信パターンの間で動的に切り替えることで、通信効率を最適化する。
  • TensorFlowなどの人気フレームワークとの互換性を維持したまま、多様なモデルタイプで高いパフォーマンスを発揮する。

提案手法

  • モデルパラメータのスパarsityレベルに応じて、パラメータサーバーとAllReduceの間で通信を切り替えるハイブリッド通信アーキテクチャを導入する。
  • モデルパラメータをスパースおよびディンスのコンポONENTに動的に分割し、最も効率的なプロトコル経由で通信をルーティングする。
  • スパarsityに配慮したスケジューリングを用いて、ワーカー間でのパラメータ同期中にデータ転送量を最小限に抑える。
  • 最小限のコード変更でTensorFlowの既存のデータ並列トレーニングパイプラインに統合する。
  • モデル構造解析を活用して各レイヤーごとのスパarsityを推定し、通信戦略選択を支援する。
  • スパースパラメータの更新を優先することで、帯域幅要件が低いタスクを優先し、通信負荷をバランスさせ、無駄な待機時間を削減する。

実験結果

リサーチクエスチョン

  • RQ1NLPモデルパラメータに内在するスパarsityを効果的に活用することで、データ並列トレーニングフレームワークのスケーラビリティをどのように最適化できるか?
  • RQ2モデルスパarsityの異なる水準において、パラメータサーバーとAllReduceのどちらの通信戦略がより優れたパフォーマンスを発揮するか?
  • RQ3ハイブリッド通信アプローチは、分散DNNトレーニングにおける通信オーバーヘッドをどの程度削減できるか?
  • RQ4多様なモデルタイプにおいて、ParallaxはHorovod やTensorFlow といった最先端のフレームワークと比較して、トレーニングスループットでどの程度優れているか?

主な発見

  • NLPモデルにおいて、Parallax は48 GPUでHorovodに比べ最大6.02倍、TensorFlowに比べ2.8倍の高速化を達成し、顕著なスケーラビリティの向上を示した。
  • 画像分類モデルでは、Parallax はHorovod と同等のパフォーマンスを発揮し、TensorFlow に比べ1.53倍高速であった。これは、モデルタイプにわたる優れた一般化性能を示している。
  • ハイブリッド通信戦略は、パラメータスパarsityに応じて適応することで、通信オーバーヘッドを効果的に低減し、トレーニングスループットの向上に寄与した。
  • Parallax は、スパarsityに配慮した通信ルーティングを透明に提供するため、導入に伴うユーザーの作業負荷が最小限に抑えられた。
  • スパースおよびディンスの両方のモデルにおいて高いスケーラビリティを維持しており、混合アーキテクチャのトレーニングシナリオでも既存のフレームワークを上回る性能を発揮した。
  • スパarsityに配慮した通信ルーティングにより、パラメータスパarsityの変動が著しいモデルにおいて顕著なパフォーマンス向上が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。