Skip to main content
QUICK REVIEW

[論文レビュー] Single Server Multi-GPU Training of ConvNets

Omry Yadan, Keith Adams|arXiv (Cornell University)|Dec 20, 2013
Advanced Neural Network Applications参考文献 6被引用数 1
ひとこと要約

本稿では、複数のGPUを搭載した単一サーバー上で、パラメータの平均化と勾配の同期を活用したデータ並列性を用いる、畳み込みニューラルネットワーク(ConvNets)の単一サーバー・マルチGPUトレーニングフレームワークを提案する。本手法は、最小限の通信オーバーヘッドで高いトレーニング効率とスケーラビリティを達成し、複数のGPUを搭載した単一マシン上でも、ほぼ線形のスループット向上を実証した。

ABSTRACT

In this work we evaluate different approaches to parallelize computation of convolutional neural networks across several GPUs.

研究の動機と目的

  • 単一サーバー上でのConvNetsの効率的なマルチGPUトレーニングを調査し、トレーニング時間を短縮すること。
  • パラメータ同期の最適化により、分散トレーニングにおける通信ボトル neck 問題を解決すること。
  • 共有メモリ環境下での複数GPUにわたるConvNetsの並列化戦略を評価すること。
  • 単一サーバー環境下で、最小限のオーバーヘッドで高いトレーニングスループットとスケーラビリティを達成すること。

提案手法

  • 単一サーバー上の複数GPUにミニバッチを分散して割り当てるデータ並列性を用いる。
  • 各フォワードおよびバックワードパスの後、GPU間でパラメータを平均化する同期的確率的勾配降下法を採用する。
  • 各トレーニングイテレーションの終了時にのみ勾配とモデルパラメータを同期することで、通信オーバーヘッドを最小限に抑える。
  • GPU間でのモデル更新を調整するため、同じマシン内に共有パラメータサーバーを設ける。
  • トレーニング中のGPUメモリ競合を低減するための効率的なメモリ管理を実装する。
  • ノード間通信遅延を回避するため、単一ノード・マルチGPU構成を採用する。

実験結果

リサーチクエスチョン

  • RQ1単一サーバー上でのマルチGPUトレーニングが、ConvNetsのトレーニング速度とスケーラビリティに与える影響は何か?
  • RQ2勾配同期の頻度がトレーニング収束と効率に与える影響は何か?
  • RQ3通信オーバーヘッドは、マルチGPU ConvNetトレーニングのパフォーマンスにどのように影響するか?
  • RQ4データ並列性は、複数のGPUを搭載した単一サーバー上でほぼ線形のスループット向上を達成できるか?
  • RQ5マルチGPUトレーニングにおいて、モデルサイズ、バッチサイズ、GPU利用率の間にはどのような実用的トレードオフが生じるか?

主な発見

  • 提案手法は、単一サーバー上でのGPU数の増加に伴い、ほぼ線形のスループット向上を達成した。
  • トレーニングスループットはGPU数に比例して効率的に向上し、計算リソースの高い利用度が確認された。
  • 希な同期により通信オーバーヘッドが最小限に抑えられ、効率的なマルチGPU運用が可能になった。
  • 分散計算を経ても、単一GPUトレーニングと同等のモデル精度を維持した。
  • 大規模なConvNetトレーニングに対しても、複数GPU間でパフォーマンス劣化が最小限に抑えられ、スケーラブルな性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。