QUICK REVIEW

[論文レビュー] Single Server Multi-GPU Training of ConvNets

Omry Yadan, Keith Adams|arXiv (Cornell University)|Dec 20, 2013

Advanced Neural Network Applications参考文献 6被引用数 1

ひとこと要約

本稿では、複数のGPUを搭載した単一サーバー上で、パラメータの平均化と勾配の同期を活用したデータ並列性を用いる、畳み込みニューラルネットワーク（ConvNets）の単一サーバー・マルチGPUトレーニングフレームワークを提案する。本手法は、最小限の通信オーバーヘッドで高いトレーニング効率とスケーラビリティを達成し、複数のGPUを搭載した単一マシン上でも、ほぼ線形のスループット向上を実証した。

ABSTRACT

In this work we evaluate different approaches to parallelize computation of convolutional neural networks across several GPUs.

研究の動機と目的

単一サーバー上でのConvNetsの効率的なマルチGPUトレーニングを調査し、トレーニング時間を短縮すること。
パラメータ同期の最適化により、分散トレーニングにおける通信ボトル neck 問題を解決すること。
共有メモリ環境下での複数GPUにわたるConvNetsの並列化戦略を評価すること。
単一サーバー環境下で、最小限のオーバーヘッドで高いトレーニングスループットとスケーラビリティを達成すること。

提案手法

単一サーバー上の複数GPUにミニバッチを分散して割り当てるデータ並列性を用いる。
各フォワードおよびバックワードパスの後、GPU間でパラメータを平均化する同期的確率的勾配降下法を採用する。
各トレーニングイテレーションの終了時にのみ勾配とモデルパラメータを同期することで、通信オーバーヘッドを最小限に抑える。
GPU間でのモデル更新を調整するため、同じマシン内に共有パラメータサーバーを設ける。
トレーニング中のGPUメモリ競合を低減するための効率的なメモリ管理を実装する。
ノード間通信遅延を回避するため、単一ノード・マルチGPU構成を採用する。

実験結果

リサーチクエスチョン

RQ1単一サーバー上でのマルチGPUトレーニングが、ConvNetsのトレーニング速度とスケーラビリティに与える影響は何か？
RQ2勾配同期の頻度がトレーニング収束と効率に与える影響は何か？
RQ3通信オーバーヘッドは、マルチGPU ConvNetトレーニングのパフォーマンスにどのように影響するか？
RQ4データ並列性は、複数のGPUを搭載した単一サーバー上でほぼ線形のスループット向上を達成できるか？
RQ5マルチGPUトレーニングにおいて、モデルサイズ、バッチサイズ、GPU利用率の間にはどのような実用的トレードオフが生じるか？

主な発見

提案手法は、単一サーバー上でのGPU数の増加に伴い、ほぼ線形のスループット向上を達成した。
トレーニングスループットはGPU数に比例して効率的に向上し、計算リソースの高い利用度が確認された。
希な同期により通信オーバーヘッドが最小限に抑えられ、効率的なマルチGPU運用が可能になった。
分散計算を経ても、単一GPUトレーニングと同等のモデル精度を維持した。
大規模なConvNetトレーニングに対しても、複数GPU間でパフォーマンス劣化が最小限に抑えられ、スケーラブルな性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。