Skip to main content
QUICK REVIEW

[論文レビュー] Multi-GPU Training of ConvNets

Omry Yadan, Keith Adams|arXiv (Cornell University)|Dec 20, 2013
Advanced Neural Network Applications参考文献 11被引用数 53
ひとこと要約

この論文は、データ並列性、モデル並列性、およびそれらのハイブリッド組み合わせを用いた畳み込みニューラルネットワーク(ConvNets)のマルチGPU学習を調査している。4つのGPUを用いて両方の戦略を組み合わせることで、単一GPU学習に比べて2.2倍の高速化を達成し、ImageNet分類の学習時間を顕著に短縮した一方で、収束安定性を維持した。

ABSTRACT

In this work we evaluate different approaches to parallelize computation of convolutional neural networks across several GPUs.

研究の動機と目的

  • 大規模なConvNetsの長時間にわたる学習を、複数のGPUにわたる並列化戦略を検討することで短縮すること。
  • 通信オーバーヘッドとハードウェア利用率の観点から、データ並列性とモデル並列性のトレードオフを調査すること。
  • 下流の最適化アルゴリズムを変更せずに、マルチGPU環境での学習を加速する最適な構成を特定すること。
  • ハイブリッド並列化(データ+モデル)の実現可能性と性能を評価し、GPUの利用度を最大化し、学習時間を最小限に抑えること。

提案手法

  • ミニバッチ(サイズ256)を複数のGPUに分割することでデータ並列性を実装し、各GPUがサンプルのサブセットに対して勾配を計算する。
  • ネットワークアーキテクチャをGPU間で分割することでモデル並列性を実装し、Krizhevskyら[1]の手法に従い、フィルターや層をデバイス間で分割する。
  • データとモデルの両方の並列化を組み合わせ、4つのGPUにデータサンプルとネットワーク部品を分散させることで、負荷をバランスさせ、通信ボトルネックを低減する。
  • 標準的なバックプロパゲーションを用いた同期ミニバッチ確率的勾配降下法を用い、並列化の影響を最適化の変更から分離する。
  • NVIDIA TITAN GPU(6GB RAM)を用いて、ImageNet 2012データセットで100エポックにわたって学習時間とテスト誤差を測定する。
  • PCIeを介してGPU間で勾配とモデルパラメータを通信し、シングルサーバー環境における分散通信オーバーヘッドをシミュレートする。

実験結果

リサーチクエスチョン

  • RQ1マルチGPU環境において、データ並列性とモデル並列性の両者を、学習速度と通信コストの観点から比較するとどうなるか?
  • RQ2ハイブリッドデータ並列性とモデル並列性は、単独での戦略よりも優れたパフォーマンスを達成できるか?
  • RQ34つのGPUを用いて大規模なConvNetを学習する際、異なる並列化方式を用いることで得られる最大の高速化率はどの程度か?
  • RQ4ミニバッチサイズの分布が、マルチGPU学習におけるGPUの利用度と収束にどのように影響するか?
  • RQ5大規模なモデルを学習する際、シングルGPUのメモリ制限の実際の限界は何か?また、マルチGPU戦略はそれらをどのように緩和できるか?

主な発見

  • 4つのGPUを用いたデータ並列性とモデル並列性のハイブリッドアプローチにより、単一GPU学習に比べて2.2倍の高速化が達成され、学習時間は10.5日から4.8日へ短縮された。
  • 2つのGPUを用いたデータ並列性では1.5倍の高速化、2つのGPUを用いたモデル並列性では1.6倍の高速化が得られ、この設定ではモデル並列性がわずかに効率的であることが示された。
  • 4つのGPUを用いた純粋なデータ並列性では、わずか1.4倍の高速化(7.2日)にとどまり、通信オーバーヘッドの増加による利得の逓減が顕著に現れた。
  • 4つのGPUにおけるハイブリッド構成が、最も速い収束を達成した。図1に示すように、テスト誤差が時間経過とともに最も急速に減少した。
  • ミニバッチサイズが64未満ではGPUコアが十分に活用されず、256を超えるサイズではシングルGPUのメモリ制限(6GB RAM)によって制限された。その結果、256が最適なバッチサイズであると判明した。
  • 通信オーバーヘッドはパフォーマンスに顕著な影響を及ぼし、特にデータ並列性では、すべてのGPUで毎ステップごとに勾配とパラメータを同期する必要があるため顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。