QUICK REVIEW

[論文レビュー] Why gradient clipping accelerates training: A theoretical justification for adaptivity

Jingzhao Zhang, Tianxing He|arXiv (Cornell University)|May 28, 2019

Stochastic Gradient Optimization Techniques参考文献 57被引用数 140

ひとこと要約

本論文は、局所的な勾配リッツシュ常数が勾配ノルムとともに増大しうる緩化された滑らかさ条件を導入し、この条件の下で勾配クリッピングと正規化勾配法が固定ステップの勾配降下よりも速く収束することを証明し、NLPおよびビジョンタスクで実証的検証を行う。

ABSTRACT

We provide a theoretical explanation for the effectiveness of gradient clipping in training deep neural networks. The key ingredient is a new smoothness condition derived from practical neural network training examples. We observe that gradient smoothness, a concept central to the analysis of first-order optimization algorithms that is often assumed to be a constant, demonstrates significant variability along the training trajectory of deep neural networks. Further, this smoothness positively correlates with the gradient norm, and contrary to standard assumptions in the literature, it can grow with the norm of the gradient. These empirical observations limit the applicability of existing theoretical analyses of algorithms that rely on a fixed bound on smoothness. These observations motivate us to introduce a novel relaxation of gradient smoothness that is weaker than the commonly used Lipschitz smoothness assumption. Under the new condition, we prove that two popular methods, namely, \\emph{gradient clipping} and \\emph{normalized gradient}, converge arbitrarily faster than gradient descent with fixed stepsize. We further explain why such adaptively scaled gradient methods can accelerate empirical convergence and verify our results empirically in popular neural network training settings.

研究の動機と目的

深層ニューラルネットワークの訓練において適応的勾配法がなぜよく機能するのかを動機づける。
勾配ノルムとともにヘシアンノルムが成長することを許す新しい緩和された滑らかさ条件を導入する。
新しい条件の下でクリップド勾配降下と正規化勾配降下の収束と収束速度の結果を証明する。
クリップドGDと標準GDを比較した確定的および確率的（確率的）収束解析を提供する。
NLPの言語モデリングと画像分類タスクで理論を経験的に検証する。

提案手法

緩和された (L0,L1)-滑らかさ条件を定義する: ||∇2f(x)|| ≤ L0 + L1||∇f(x)||。
新しい条件の下で固定ステップの勾配降下、クリップド勾配降下、正規化勾配降下を解析する。
決定論的GDとクリップドGDの収束速度の上界と下界を証明する（定理3,4,6）。
解析を確率的設定に拡張し、確率的クリップドGDとSGDの収束保証を導出する（定理7,8）。
クリップドGDと正規化GDを関連付け、係数の定数まで同等になる実用的なパラメータ設定（γ, ηc, ηn）を議論する。）

実験結果

リサーチクエスチョン

RQ1局所的滑らかさが勾配ノルムとともに成長する緩和された滑らかさ条件は、適応的勾配法に対してより速い収束保証を生み出せるのか。
RQ2緩和された滑らかさ条件の下で、勾配クリッピングと正規化勾配法は固定ステップの勾配降下より速く収束するか。
RQ3これらの理論的結果はニューラルネットワーク訓練に典型的な確率的設定へどのように拡張されるか。
RQ4提案された緩和された滑らかさ条件と勾配クリッピングの有効性との結びつきをNLPおよびCVタスクで支持する実証的証拠は何か。
RQ5これらの知見はなぜ適応的手法が実務でSGDより優れているのかをどのように説明するか。

主な発見

新しい (L0,L1)-滑らかさ条件の下で、クリップドGDは固定ステップGDより任意に速く収束する（定理3）.
緩和された滑らかさの枠組みでは、固定ステップGDはクリップドGDより任意に遅くなる可能性がある（定理4）。
固定ステップを用いる決定論的GDは上界がL0とL1に結びつく一方、クリップドGDは改善されたレートを示す（定理6）。
確率的クリップドGDと SGD は、クリッピングが固定ステップのSGDより速いことを示す（定理7および8）。
実証的なNLP実験（AWD-LSTM言語モデリング）では、勾配の滑らかさが勾配ノルムと相関し、理論と一致する。LMでの収束を加速し、CVの結果を改善する可能性も示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。