QUICK REVIEW

[論文レビュー] Parle: parallelizing stochastic gradient descent

Pratik Chaudhari, Carlo Baldassi|arXiv (Cornell University)|Jul 3, 2017

Stochastic Gradient Optimization Techniques参考文献 35被引用数 18

ひとこと要約

Parle は、データ並列 SGD よりも 2–4 倍の収束速度を達成しながら、CIFAR-10 および CIFAR-100 で最先端の一般化誤差を実現する深層ニューラルネットワークの新規並列学習アルゴリズムである。複数のモデルレプリカをエントロピー正則化で訓練し、プロキシマル結合項による稀な通信を採用することで、追加のハイパーパrameter を必要とせず、マルチGPUおよび分散システムにおいても効率的なスケーリングが可能である。

ABSTRACT

We propose a new algorithm called Parle for parallel training of deep networks that converges 2-4x faster than a data-parallel implementation of SGD, while achieving significantly improved error rates that are nearly state-of-the-art on several benchmarks including CIFAR-10 and CIFAR-100, without introducing any additional hyper-parameters. We exploit the phenomenon of flat minima that has been shown to lead to improved generalization error for deep networks. Parle requires very infrequent communication with the parameter server and instead performs more computation on each client, which makes it well-suited to both single-machine, multi-GPU settings and distributed implementations.

研究の動機と目的

深層ネットワークの分散SGD学習における通信コストと一般化性能のトレードオフを解消すること。
大バッチSGD（一般化性能が低い）および小バッチSGD（通信オーバーヘッドが高い）の限界を克服すること。
単一マシンのマルチGPU環境および分散環境において、最小限のハイパーパrameterチューニングで効率的かつスケーラブルな並列学習を可能にすること。
平坦な最小値の概念を活用して一般化性能を向上させるとともに、通信頻度を低減すること。
エントロピー正則化とエラスティックアベーリージングを統合した、強固でスケーラブルな最適化フレームワークを構築すること。

提案手法

同じモデルの複数のレプリカを並列に訓練し、それぞれがデータのサブセットに対して複数回の勾配ステップを実行する。
非凸な損失関数の平坦化と平坦な最小値の促進を目的に、『局所エントロピー』と呼ばれる修正損失関数 $ f_{\rho}(x) = -\log\left(G_{\gamma} * e^{-f(x)}\right) $ を使用する。
レプリカ同士をプロキシマル項 $ \frac{1}{2\rho} \|x^a - x\|^2 $ で結合し、共有の参照パラメータ $ x $ に向けて一致を促進することで、通信頻度を低減する。
『スコープ』を用いて $ \gamma \to 0 $ および $ \rho \to 0 $ を段階的に減少させ、レプリカを単一の最適解に収束させる。
パラメータサーバーアーキテクチャを採用し、通信を稀に行うことで、異種システムに対しても適応可能である。
すべての実験で同一のハイパーパrameterを維持し、標準的なSGD設定を超える追加チューニングを回避する。

実験結果

リサーチクエスチョン

RQ1並列SGDにおける通信頻度の低減によって、深層学習の収束速度と一般化性能を向上させることは可能か？
RQ2プロキシマル項とエントロピー正則化による複数のモデルレプリカの結合は、ハイパーパrameterの複雑さを増すことなく、一般化性能を向上させるか？
RQ3Parle によって分割データ上で学習されたモデルは、フルバッチSGDと同等またはそれ以上の性能を達成できるか？
RQ4局所エントロピーとスコープの使用により、非凸な深層学習問題において安定した平坦な最小値への収束が可能か？
RQ5計算能力および通信能力にばらつきのある異種システムにおいて、Parle は効率的にスケーリング可能か？

主な発見

Parle は All-CNN アーキテクチャを用いて CIFAR-10 でデータ並列SGDよりも 2–4 倍の壁時計速度を達成し、75 分で学習を完了した（ベースラインSGDは 37 分）。
Parle は、CIFAR-10 で全データを用いて検証誤差 5.18% を達成し、ベースラインSGD（6.15%）および Elastic-SGD（5.76%）を上回った。
3つのレプリカでデータの 50% のみを分散して学習しても、Parle は 5.89% の誤差を達成した。これは、同じサブセットで学習したSGD（7.86%）よりも顕著に優れており、データ分割に対するロバストネスを示している。
6つのレプリカでそれぞれ 25% のデータを学習した場合、Parle は 6.08% の誤差を達成したが、同じサブセットで学習したSGDは 10.96% まで劣化した。これは、Parle がデータの希釈に対しても効果的に対処できることを示している。
Parle は、Elastic-SGD や Entropy-SGD などの他の手法とは異なり、新たなハイパーパラメータを導入しないまま、最先端の性能を維持している。
アルゴリズムはハイパーパラメータにほとんど感受性がなく、すべての実験で同一の設定（重み減衰 $10^{-3}$、ドロップアウト 0.5、データ拡張）が使用された。これにより、そのロバストネスが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。