QUICK REVIEW

[論文レビュー] The exploding gradient problem demystified - definition, prevalence, impact, origin, tradeoffs, and solutions

George Philipp, Dawn Song|arXiv (Cornell University)|Dec 15, 2017

Neural Networks and Applications被引用数 35

ひとこと要約

この論文は、バッチ正規化やSELUなどの正規化手法が深層フィードフォワードネットワークにおける勾配爆発問題を完全に解消すると一般に信じられているのを挑戦する。実際、多くの標準的なMLPアーキテクチャにおいて勾配爆発が依然として発生しており、学習の深さが制限されていることを示し、『残差トリック』を導入する。このトリックは、スキップ接続がピタゴラスの定理を介して勾配の流れを数学的に単純化することを示し、特にResNetsにおいてより深い、より安定した学習を可能にする。

ABSTRACT

Whereas it is believed that techniques such as Adam, batch normalization and, more recently, SeLU nonlinearities "solve" the exploding gradient problem, we show that this is not the case in general and that in a range of popular MLP architectures, exploding gradients exist and that they limit the depth to which networks can be effectively trained, both in theory and in practice. We explain why exploding gradients occur and highlight the *collapsing domain problem*, which can arise in architectures that avoid exploding gradients. ResNets have significantly lower gradients and thus can circumvent the exploding gradient problem, enabling the effective training of much deeper networks. We show this is a direct consequence of the Pythagorean equation. By noticing that *any neural network is a residual network*, we devise the *residual trick*, which reveals that introducing skip connections simplifies the network mathematically, and that this simplicity may be the major cause for their success.

研究の動機と目的

バッチ正規化やSELUといった正規化手法が深層フィードフォワードネットワークにおける勾配爆発問題を完全に解消するという広く信じられている信念に反論すること。
最近の重み初期化や正規化の進歩にもかかわらず、現代のMLPアーキテクチャにおいても勾配爆発が学習の深さを制限し続ける理由を調査すること。
勾配爆発の根本的原因を特定し、それが不安定な順方向活性化の結果であるとは限らないことを示すこと。
残差接続が勾配の流れを数学的に単純化することを示し、ResNetsの成功を単なるアーキテクチャ設計の上境えるものとして説明すること。
勾配の病理を緩和し、学習の安定性と精度を向上させるための体系的な層別学習率選択法を提案すること。

提案手法

勾配のノルムやヤコビ行列の固有値ではなく、訓練中のパラメータの相対的更新サイズに基づく、勾配爆発の新しい定義を提唱する。
4段階のトレーニングパイプラインを導入：事前学習、選択（各層のステップサイズに関するグリッドサーチ）、クリッピング（不自然な大きな更新を除去）、スムージング（ノイズを低減するための対数線形回帰）。
最終段階として、すべての層別学習率を同時に調整するスケーリング段階を適用し、安定した同時更新を確保するとともに、過剰なパラメータ更新を防ぐ。
不安定化を引き起こすステップサイズを除外するために、相対的更新サイズの閾値（≥0.1）を用いる。これにより一般化性能が向上し、ハイパーパramータ選択のノイズが低減される。
層別更新量のミニレグレッションデータセットを用いて、滑らかで対数スケールの線形モデルをフィッティングし、選択された学習率を精緻化するために利用する。
3つのバリエーション（クリッピングなし、スケーリングでのみクリッピング、両段階でのクリッピング）をそれぞれのアーキテクチャでトレーニングし、最終トレーニングエラーが最小となるものを選択することで結果を検証する。

実験結果

リサーチクエスチョン

RQ1バッチ正規化やSELUといった正規化手法が、標準的なMLPにおいて本当に勾配爆発問題を完全に解消できるのか、どの程度までなのか？
RQ2正規化や初期化によって順方向活性化が安定化されているにもかかわらず、なぜ深層フィードフォワードネットワークにおいても勾配爆発が依然として発生するのか？
RQ3残差ネットワークがより深い学習を可能にする背後にある数学的メカニズムは何か？そしてそれは勾配の流れとどのように関係しているのか？
RQ4体系的で層別の学習率選択戦略が、深層ネットワークにおける学習の安定性と最終的パフォーマンスを顕著に向上させられるのか？
RQ5勾配爆発問題は数値的アーティファクトなのか、それとも単純な適応的最適化手法では解決できない根本的な最適化的障壁なのか？

主な発見

バッチ正規化、重み初期化、あるいはSELU非線形性を用いても、多くの標準的なMLPアーキテクチャにおいて勾配爆発問題が依然として顕著であり、有効な深さが制限されている。
順方向活性化の安定化は、勾配爆発を防ぐには不十分である。問題の本質は、バックプロパゲーションされた勾配の幾何構造と層間相互作用に根ざしている。
スキップ接続がピタゴラスの関係を強制することで、残差ネットワークは数学的に勾配の流れが単純化され、著しく低い勾配を示す。
『残差トリック』—任意のネットワークを残差ネットワークとして扱う—は、スキップ接続が勾配の複雑さを低減し、学習の安定性を向上させることを明らかにする。
4段階の学習率選択パイプライン（事前学習、選択、クリッピング、スムージング）により、標準的な1ステップサイズ学習と比較して、トレーニング誤差が最大10%まで低減された。
スケーリング段階でのクリッピングは、テスト誤差を改善した。5つのアーキテクチャのうち4つで、特にヴァニラtanhおよびReLUベースのネットワークで顕著であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。