QUICK REVIEW

[論文レビュー] Decoupled Parallel Backpropagation with Convergence Guarantee

Zhouyuan Huo, Bin Gu|arXiv (Cornell University)|Apr 27, 2018

Stochastic Gradient Optimization Techniques被引用数 32

ひとこと要約

本稿では、遅延勾配を用いてバックワードロックを解消することで、深層ニューラルネットワークにおける並列バックプロパゲーションを可能にする、分離型遅延勾配（DDG）を提案する。これにより、GPUのフル利用が可能となり、非凸問題において臨界点への収束を保証する。ResNet-56およびResNet-110において、精度を損なわずに4GPU環境で最大2倍の高速化を達成する。

ABSTRACT

Backpropagation algorithm is indispensable for the training of feedforward neural networks. It requires propagating error gradients sequentially from the output layer all the way back to the input layer. The backward locking in backpropagation algorithm constrains us from updating network layers in parallel and fully leveraging the computing resources. Recently, several algorithms have been proposed for breaking the backward locking. However, their performances degrade seriously when networks are deep. In this paper, we propose decoupled parallel backpropagation algorithm for deep learning optimization with convergence guarantee. Firstly, we decouple the backpropagation algorithm using delayed gradients, and show that the backward locking is removed when we split the networks into multiple modules. Then, we utilize decoupled parallel backpropagation in two stochastic methods and prove that our method guarantees convergence to critical points for the non-convex problem. Finally, we perform experiments for training deep convolutional neural networks on benchmark datasets. The experimental results not only confirm our theoretical analysis, but also demonstrate that the proposed method can achieve significant speedup without loss of accuracy.

研究の動機と目的

深層ニューラルネットワークにおける並列学習を制限するバックプロパゲーションのバックワードロックボトルネックを解消すること。
ネットワークモジュール間の勾配計算を分離することで、マルチGPUシステムのフル利用を可能にすること。
深層ネットワークにおける学習時間の大幅な短縮を実現しながら、学習精度を維持する手法を開発すること。
深層学習における非凸最適化問題に対して理論的収束保証を提供すること。
ネットワークの深さや分割構成の変化にわたって、スケーラビリティとロバストネスを示すこと。

提案手法

上流の依存関係を待たずに、各ネットワークモジュールが独立して勾配を計算できるように、遅延勾配を導入することでバックプロパゲーション処理を分離する。
ネットワークをK個のモジュールに分割し、それぞれを別々のGPUに割り当てることで、並列的なフォワードおよびバックワードパスを実現する。
確率的勾配降下法とその変種の2つの確率的最適化手法を用い、遅延勾配を組み込んで重みを並列で更新する。
遅延勾配近似を用いた最適化問題を定式化し、弱い仮定の下で臨界点への収束を証明する。
直前の反復からの履歴情報を用いて真の勾配を近似する遅延勾配更新ルールを導入する。
遅延の上限を設定し、モジュール数Kが収束速度に与える影響を分析することで、安定性と収束性を確保する。

実験結果

リサーチクエスチョン

RQ1深層ネットワークにおいて、モデル精度を損なわずにバックプロパゲーションのバックワードロックを完全に排除できるか？
RQ2分離型フレームワークにおける遅延勾配の使用が、非凸な深層学習問題に対して収束を保証するか？
RQ3ネットワークの分割数（K）が収束速度およびモデル性能に与える影響は何か？
RQ4提案手法は、複数のGPUにわたって効率的にスケーリング可能であり、総合的な学習時間を短縮できるか？
RQ5深層アーキテクチャにおいて、DNI や合成勾配法といった既存手法と比較して、精度および安定性の面で優れているか？

主な発見

4GPU環境でResNet-110を学習する際、DDGは最大2倍の高速化を達成し、標準的なバックプロパゲーションと比較して総合計算時間を30–50％短縮した。
CIFAR-10およびCIFAR-100において、DDGは標準的なバックプロパゲーションと同等またはわずかに優れたTop-1精度を維持した（例：CIFAR-10のResNet-110では93.53％ vs. 93.41％）。
DNIとは異なり、分割点をより深い層（例：層7）に配置しても、DDGは安定して収束する。
K=2から4の異なる分割数においても、DDGは一貫した性能を示し、アーキテクチャの分割に強く依存しないロバストネスを示した。
標準的なバックプロパゲーションでは、フォワードパスの時間が総合学習時間の約32％にとどまり、バックワードロックが主なボトルネックであることを確認した。
DDGはGPUリソースをフルに活用し、約70％の可変GPU利用率を達成したのに対し、標準的なバックプロパゲーションは順次依存性のため、GPUのアイドル時間が生じた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。