QUICK REVIEW

[論文レビュー] Deep learning with Elastic Averaging SGD

Sixin Zhang, Anna Choromanska|arXiv (Cornell University)|Dec 20, 2014

Stochastic Gradient Optimization Techniques参考文献 28被引用数 67

ひとこと要約

本稿では、通信効率の高い分散環境における深層学習のための最適化アルゴリズムであるElastic Averaging SGD（EASGD）を提案する。局所的なワーカーのパラメータと中央変数を結ぶエラスティック力を取り入れることで、損失関数の局所的構造をより広く探索可能となり、収束速度の向上と一般化性能の向上が達成された。CIFAR-10およびImageNetにおいて、通信量を削減しながらも最先端の高速化が実証された。

ABSTRACT

We study the problem of stochastic optimization for deep learning in the parallel computing environment under communication constraints. A new algorithm is proposed in this setting where the communication and coordination of work among concurrent processes (local workers), is based on an elastic force which links the parameters they compute with a center variable stored by the parameter server (master). The algorithm enables the local workers to perform more exploration, i.e. the algorithm allows the local variables to fluctuate further from the center variable by reducing the amount of communication between local workers and the master. We empirically demonstrate that in the deep learning setting, due to the existence of many local optima, allowing more exploration can lead to the improved performance. We propose synchronous and asynchronous variants of the new algorithm. We provide the stability analysis of the asynchronous variant in the round-robin scheme and compare it with the more common parallelized method ADMM. We show that the stability of EASGD is guaranteed when a simple stability condition is satisfied, which is not the case for ADMM. We additionally propose the momentum-based version of our algorithm that can be applied in both synchronous and asynchronous settings. Asynchronous variant of the algorithm is applied to train convolutional neural networks for image classification on the CIFAR and ImageNet datasets. Experiments demonstrate that the new algorithm accelerates the training of deep architectures compared to DOWNPOUR and other common baseline approaches and furthermore is very communication efficient.

研究の動機と目的

帯域制限がある環境下での分散深層学習訓練における通信ボトルネックを解消すること。
パラメータの弾性を活用して損失関数の探索を広げることで、最適化性能を向上させること。
従来のDOWNPOURやADMMと比較して、速度および通信効率の両面で優れる安定的かつスケーラブルなアルゴリズムを設計すること。
非同期版アルゴリズムの理論的安定性保証を提供すること。
CIFAR-10やImageNetなどの大規模画像分類ベンチマークにおいて、実用的効果を実証すること。

提案手法

EASGDは、局所ワーカーと中心変数（マスタ）をエラスティック力で結ぶ中心変数を導入し、目的関数に二次罰則項としてモデル化する。
アルゴリズムは双対更新ルールを用いる：局所ワーカーは確率的勾配と中心からの逸脱に基づいてパラメータを更新し、中心変数は局所的逸脱の重み付き移動平均として更新される。
コアとなる更新式は以下の通り：$ x^{i}_{t+1} = x^{i}_{t} - \eta(g^{i}_{t} + \rho(x^{i}_{t} - \tilde{x}_{t})) $ および $ \tilde{x}_{t+1} = \tilde{x}_{t} + \eta \sum_{i=1}^{p} \rho(x^{i}_{t} - \tilde{x}_{t}) $、ここで $ \rho $ は弾性を制御する。
同期および非同期の両方の訓練モードをサポートし、収束を早めるためにモーメンタムベースの変種も提供する。
通信周期 $ \tau $ によって制御されるように、局所ワーカーがマスタと同期する前に複数イテレーションを実行することで通信量を削減する。
Torchを用いて実装され、GPU-CPU間通信にはMVAPICH2が使用され、ResNetおよびAlexNetアーキテクチャを用いてCIFAR-10およびImageNetで評価された。

実験結果

リサーチクエスチョン

RQ1分散SGD訓練における通信頻度の低減が、収束速度およびモデル性能の向上に寄与するか？
RQ2局所的パラメータと中央パラメータの間にエラスティック力を取り入れることで、深層学習における探索性が向上し、一般化性能が向上するか？
RQ3同じラウンドロビン通信方式下で、EASGDの安定性はADMMと比較してどうなるか？
RQ4EASGDの非同期版は、実用的な通信制約下でも収束性と安定性を維持できるか？
RQ5EASGDは、DOWNPOUR や MSGD といったベースライン手法に比べて、トレーニング速度およびテスト精度の面でどの程度優れているか？

主な発見

EASGDは、CIFAR-10およびImageNetにおいて、DOWNPOURや他のベースラインと比較してより速い収束を達成し、同等のテスト誤差に達するまでのウォールクロックタイムで最大2.5倍の高速化を実現した。
通信周期 $ \tau = 10 $ の場合、パラメータ通信時間は全トレーニング時間（1254–1323秒）と比較して無視できるほど短く（1–11秒）、通信オーバーヘッドが顕著に削減された。
非同期版のEAMSGDが最良の性能を示し、CIFAR-10およびImageNetの両方で、すべての他の手法よりも短いウォールクロックタイムで目標テスト誤差に到達した。
EASGDはラウンドロビン方式下でも安定した収束を示し、単純な条件下で安定性が保証された。これに対してADMMは同様の保証がなかった。
モーメンタムベースのEASGD変種は、収束速度と一般化性能を向上させ、特に非同期設定において顕著な改善を示した。学習率は各ワーカーの時計に従って段階的に減少させた。
16ワーカー（$ p=16 $）の場合、EASGDは通信頻度を減らしても高いテスト精度を維持し、通信遅延に強く、効率的なスケーリングが可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。