Skip to main content
QUICK REVIEW

[論文レビュー] Gossip training for deep learning

Michaël Blot, David Picard|arXiv (Cornell University)|Nov 29, 2016
Stochastic Gradient Optimization Techniques参考文献 13被引用数 37
ひとこと要約

本論文では、ディープラーニングのための完全非同期かつ分散型のガッズベース学習手法GoSGDを提案する。この手法は、ワーカー間でのピアツーピアの重み平均化を可能にすることで、確率的勾配降下法(SGD)の収束を加速する。CIFAR-10における実験では、GoSGDは約4時間でEASGDの7時間以上を上回る低い訓練損失を達成し、通信オーバーヘッドを最小限に抑えつつ、優れた効率性と合意形成速度を示した。

ABSTRACT

We address the issue of speeding up the training of convolutional networks. Here we study a distributed method adapted to stochastic gradient descent (SGD). The parallel optimization setup uses several threads, each applying individual gradient descents on a local variable. We propose a new way to share information between different threads inspired by gossip algorithms and showing good consensus convergence properties. Our method called GoSGD has the advantage to be fully asynchronous and decentralized. We compared our method to the recent EASGD in \cite{elastic} on CIFAR-10 show encouraging results.

研究の動機と目的

  • 大規模パラメータを有する深層畳み込みニューラルネットワーク(CNN)の訓練が遅いという問題に対処すること。
  • 中央集権的なパラメータサーバーを排除することで、分散型SGDにおける同期のボトルネックを軽減すること。
  • ガッズスタイルのピアツーピア通信を用いて、分散ワーカー間での合意形成を改善すること。
  • 通信オーバーヘッドを最小限に抑えつつ、モデルの精度を維持したまま収束を高速化すること。
  • EASGDとの実験的比較を通じて、ガッズベース平均化の有効性を検証すること。

提案手法

  • GoSGDはM個の独立したワーカーを用い、それぞれがCNN重みのローカルコピー$x_i$と混合重み$\alpha_i$を保持し、初期値を$1/M$に設定する。
  • 各ワーカーは、ミニバッチ勾配$v_i^t$を用いて学習率$\eta^t$で局所的なSGD更新を実行する。
  • 確率$p$で、各ワーカーはランダムにペアを選び、和重みガッズ更新を実行して重みを混合し、混合重みを更新する。
  • ペアワイズの交換により、平均$\overline{x}^t = \frac{1}{M}\sum x_i^t$への指数的収束が保証される。
  • 最終的なテストモデルは、すべてのワーカー重みの平均であり、合意形成のおかげで勾配の近似が改善され、最適化の安定性が向上する。
  • この手法は完全に非同期的かつ分散型であり、同期や中央集権的制御を一切必要としない。

実験結果

リサーチクエスチョン

  • RQ1ガッズベース通信は、ディープラーニングにおける分散型SGDの収束速度を向上させ得るか?
  • RQ2CIFAR-10において、GoSGDはEASGDと比較して、訓練時間と損失収束の点でどのように異なるか?
  • RQ3ガッズ交換確率$p$は、合意形成と訓練効率にどのような影響を及えるか?
  • RQ4分散型で非同期的な訓練は、通信および同期のオーバーヘッドを削減しながらも、モデルの精度を維持できるか?
  • RQ5ピアツーピアの重み平均化は、中央集権的なパラメータサーバーに比べて、より優れた勾配近似をもたらすか?

主な発見

  • 同じ枚数の画像を処理した後、GoSGDはEASGDよりも低い訓練損失を達成しており、収束が速いことが示された。
  • $p = 1$の場合、GoSGDは損失低減の点でEASGDを上回り、より優れた合意形成と情報共有が可能であることが示された。
  • $p = 0.02$の場合、GoSGDは約4時間で同じ訓練損失に達したが、EASGDは7時間以上を要した。
  • 低頻度のガッズ交換($p = 0.01$)でも強固な合意が確保され、性能に損なわれることなく通信コストが削減された。
  • GoSGDの分散型で非同期な設計により、無駄な待機時間が排除され、GPUリソースの迅速な活用が可能になった。
  • ワーカーのモデルを平均化することで、合意形成のおかげで勾配近似が改善され、最適化の安定性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。