Skip to main content
QUICK REVIEW

[論文レビュー] Asynchronous Stochastic Gradient Descent with Delay Compensation

Shuxin Zheng, Qi Meng|arXiv (Cornell University)|Sep 27, 2016
Advanced Neural Network Applications参考文献 26被引用数 160
ひとこと要約

論文は Delay Compensated ASGD (DC-ASGD) を提案する。Taylor 展開と安価な Hessian 近似を用いて非同期 SGD の遅延勾配を補償し、逐次 SGD に近い収束性を達成しつつ ASGD の効率を維持する。

ABSTRACT

With the fast development of deep learning, it has become common to learn big neural networks using massive training data. Asynchronous Stochastic Gradient Descent (ASGD) is widely adopted to fulfill this task for its efficiency, which is, however, known to suffer from the problem of delayed gradients. That is, when a local worker adds its gradient to the global model, the global model may have been updated by other workers and this gradient becomes "delayed". We propose a novel technology to compensate this delay, so as to make the optimization behavior of ASGD closer to that of sequential SGD. This is achieved by leveraging Taylor expansion of the gradient function and efficient approximation to the Hessian matrix of the loss function. We call the new algorithm Delay Compensated ASGD (DC-ASGD). We evaluated the proposed algorithm on CIFAR-10 and ImageNet datasets, and the experimental results demonstrate that DC-ASGD outperforms both synchronous SGD and asynchronous SGD, and nearly approaches the performance of sequential SGD.

研究の動機と目的

  • 深層ニューラルネットワークの訓練に対する ASGD における遅延勾配の問題を動機づけ、解決する。
  • Taylor 展開とスケーラブルな Hessian 近似に基づく遅延補償機構を開発する。
  • (-対角) Hessian 近似を用いた実装可能な DC-ASGD アルゴリズムを提案し、その収束性を解析する。
  • DC-ASGD を CIFAR-10 および ImageNet で ASGD、SSGD、逐次 SGD と比較して実証的に検証する。
  • ASGD の効率を維持しつつ、逐次 SGD に近い収束速度と精度の改善を示す。

提案手法

  • ASGD における勾配遅延を定式化し、Taylor 展開によって遅延勾配の 0 次性を特定する。
  • 勾配の外積と対角化トリックを用いてストレージを削減する安価な Hessian 近似を採用する(Diag(λG))。
  • 遅延補償勾配 g(w_t) + λ g(w_t) ⊙ g(w_t) ⊙ (w_t+τ − w_t) を導出し、グローバルモデルを更新する(式(Eq. 10))。
  • 実装の二つのバリアントを提案する:DC-ASGD-c(定数 λ)と DC-ASGD-a(MeanSquare トラッキングによる適応 λ)。
  • 有界遅延下での非凸ニューラルネットの収束理論を提供し、エルゴード収束率 O(1/√T) を示し、遅延耐性を議論する。
  • CIFAR-10(ResNet-20/ResNet-50スケール)とImageNet(ResNet-50)で、DC-ASGD を ASGD、SSGD、逐次 SGD と比較して実験的に評価する。

実験結果

リサーチクエスチョン

  • RQ1ASGD における遅延勾配を、非同期更新の速度利点を損なうことなく効果的に補償できるか?
  • RQ2Taylor ベースの遅延補償と Hessian 近似は、制限遅延下の非凸ニューラルネットワークでどれくらい効果的に機能するか?
  • RQ3DC-ASGD は ASGD および SSGD と比較して収束速度と最終精度で優れており、逐次 SGD に近づくか?
  • RQ4定数 λ と適応 λ の設定が安定性、分散、性能に与える影響は?
  • RQ5DC-ASGD は ImageNet のような大規模データセットで多くの作業者とともにどの程度スケールするか?

主な発見

  • DC-ASGD は CIFAR-10 において作業者数の異なる場合でも、収束速度と最終精度において ASGD および SSGD を上回る。
  • CIFAR-10 の 4 作業者時、DC-ASGD-c は 8.67% の誤差、DC-ASGD-a は 8.19% で、逐次 SGD(8.65%)、ASGD(9.27%)、SSGD(9.17%)を上回る。
  • 8 作業者時、DC-ASGD-a は 8.57% の誤差で、DC-ASGD-c(9.27%)、ASGD(10.26%)、SSGD(10.10%)を上回る。
  • ImageNet では、DC-ASGD-a(16 作業者)は 25.18% の top-1 誤差で、ASGD(25.64%)および SSGD(25.30%)より優れており、ASGD と同様の実時間効率を維持する。
  • 理論的には、DC-ASGD は有界遅延下で ergodic 収束率 O(V/√T) を持ち、適切な λ と遅延条件の下で ASGD を凌駕し得る。
  • 適応 λ バリアント(DC-ASGD-a)は、一般に定数 λ バリアント(DC-ASGD-c)より経験的性能が強い傾向を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。