Skip to main content
QUICK REVIEW

[論文レビュー] Scalable Deep Learning on Distributed Infrastructures: Challenges, Techniques and Tools

Ruben Mayer, Hans‐Arno Jacobsen|arXiv (Cornell University)|Mar 27, 2019
Advanced Neural Network Applications参考文献 189被引用数 45
ひとこと要約

分散インフラストラクチャ上でのスケーラブル深層学習の課題、技術、ツールの総括的な調査を行い、11 のオープンソースフレームワークの比較と並列化、スケジューリング、データ管理の分析を含む。

ABSTRACT

Deep Learning (DL) has had an immense success in the recent past, leading to state-of-the-art results in various domains such as image recognition and natural language processing. One of the reasons for this success is the increasing size of DL models and the proliferation of vast amounts of training data being available. To keep on improving the performance of DL, increasing the scalability of DL systems is necessary. In this survey, we perform a broad and thorough investigation on challenges, techniques and tools for scalable DL on distributed infrastructures. This incorporates infrastructures for DL, methods for parallel DL training, multi-tenant resource scheduling and the management of training and model data. Further, we analyze and compare 11 current open-source DL frameworks and tools and investigate which of the techniques are commonly implemented in practice. Finally, we highlight future research trends in DL systems that deserve further research.

研究の動機と目的

  • 分散インフラストラクチャ上でスケーラブルな深層学習を実行する際の課題を評価する(リソース、データ移動、弾性)。
  • データ並列、モデル並列、パイプライン並列、ハイブリッドなど、並列 DL トレーニングの技術を分類・総合し、それらのトレードオフを整理する。
  • 実践的なスケーラビリティの観点から、オープンソースの DL フレームワークとオーケストレーションツールを評価する。
  • 大規模 DL 配備におけるデータ管理とマルチテナンシーの課題について議論する。
  • DL システムのオープンな研究課題と今後の方向性を示す。

提案手法

  • スケーラブル DL システムに関する既存文献の調査と総合。
  • 並列化戦略(データ、モデル、パイプライン、ハイブリッド)の分類とそれらのトレードオフ。
  • 11 個のオープンソース DL フレームワークとツールの分析・比較。
  • インフラストラクチャ要素、ハードウェア動向、インターコネクトの議論。
  • マルチテナント環境におけるスケジューリング、弾性、データ管理の評価。
  • DL システムの将来の研究課題に関する展望。

実験結果

リサーチクエスチョン

  • RQ1分散インフラストラクチャ上で大規模 DL を管理する際の主な課題は何か?
  • RQ2どの並列化技術(データ、モデル、パイプライン、ハイブリッド)が用いられており、どのように比較されるか?
  • RQ3集中型と分散型パラメータ同期アプローチは実践でどのように機能するか?
  • RQ4どのオープンソースのフレームワークとツールがスケーラブル DL の手法を実装しており、それらはハードウェア/インフラストラクチャにどのように適合するか?
  • RQ5スケーラブル DL システムのオープンな研究方向と今後の傾向は何か?

主な発見

  • ディープラーニングのスケーラビリティは、モデルサイズ、トレーニングデータ量、ハードウェアインフラストラクチャの利用可能性という3つの次元に依存する。
  • ハードウェアの異種性と大規模なウェアハウス型インフラストラクチャは、特殊なインターコネクト、最適化、カスタマイズされた DL ランタイムの必要性を生む。
  • データ、モデル、パイプライン並列性(Mesh-TensorFlow のようなハイブリッドを含む)は、分散リソース間でトレーニングをスケールさせる主要な戦略である。
  • パラメータ同期アーキテクチャ(集中型パラメータサーバ vs. 分散型全和-リデュース)は、スループット、耐障害性、デプロイメントの複雑さというトレードオフをもたらす。
  • 分散 DL 手法を実装するオープンソース DL フレームワークとツールの広範な採用が進んでおり、自動最適化とスケジューリングに関する研究が進行中である。
  • 将来の DL システム研究は、共有クラスターとクラウド環境におけるマルチテナンシー、データ管理、エンドツーエンドのスケーラビリティに焦点を当てるべきである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。