[論文レビュー] The Shattered Gradients Problem: If resnets are the answer, then what is the question?
本論文は深部整流子ニューロンネットワークにおける shattered gradients 問題を定義・分析し、深さとともに勾配が白色雑音のようになる一方、スキップ接続(ResNets)は勾配構造を保持することを示す。さらに、LL-init を提案し、スキップ接続なしで非常に深いネットワークを訓練する方法を提示する。
A long-standing obstacle to progress in deep learning is the problem of vanishing and exploding gradients. Although, the problem has largely been overcome via carefully constructed initializations and batch normalization, architectures incorporating skip-connections such as highway and resnets perform much better than standard feedforward architectures despite well-chosen initialization and batch normalization. In this paper, we identify the shattered gradients problem. Specifically, we show that the correlation between gradients in standard feedforward networks decays exponentially with depth resulting in gradients that resemble white noise whereas, in contrast, the gradients in architectures with skip-connections are far more resistant to shattering, decaying sublinearly. Detailed empirical evidence is presented in support of the analysis, on both fully-connected networks and convnets. Finally, we present a new "looks linear" (LL) initialization that prevents shattering, with preliminary experiments showing the new initialization allows to train very deep networks without the addition of skip-connections.
研究の動機と目的
- vanishing/exploding gradients を超えて非常に深い rectifier ネットワークにおける勾配構造の研究を動機付ける。
- 深さが増すにつれて feedforward ネットワークとスキップ接続構造を持つアーキテクチャで勾配の相関が低下する様子を特徴づける。
- 初期化時における全結合ネットと畳み込みネットの勾配構造を実証的に示す。
- shattering を緩和する初期化とアーキテクチャ戦略(LL-init、バッチ正規化、β-リスケーリング)を提案する。
- 勾配品質を犠牲にせずに非常に深いネットを訓練するための実践的ガイダンスを提供する。
提案手法
- 勾配の挙動を分離するために隠れ層あたり200個の rectifier ニューロンを持つ最小のスカラー対スカラー網を構築する。
- 入力1Dグリッドとしての勾配を分析し、深さに対する勾配共分散と自己相関を計算する。
- feedforward ネットと ResNets における勾配共分散が深さとともに減衰することを説明する定理を導出する。
- Batch normalization とさまざまな深さを用いて CIFAR-10/実データ上で全結合網と ConvNet の勾配構造を経験的に検証する。
- looks-like-linear 初期化(LL-init)と直交畳み込みカーネルを導入し、非常に深いネットワークでテストする。
- スキップ接続の有無、バッチ正規化および β-リスケーリングの有無で勾配構造を比較する。
実験結果
リサーチクエスチョン
- RQ1標準的なフィードフォワード rectifier ネットワークと残差ネットワークで、勾配の相関構造は深さとともにどのように変化するか。
- RQ2スキップ接続(ResNets)は初期化時および初期訓練中の勾配構造を保持し、shattering を防ぐか。
- RQ3バッチ正規化と β-リスケーリングは深いネットの勾配相関構造にどのような影響を与えるか。
- RQ4shattering を回避する初期化戦略(LL-init)はスキップ接続なしで非常に深いネットの訓練を可能にするか。
- RQ5観測された勾配現象は全結合ネットから畳み込みネットへ実データセット上でも拡張するか。
主な発見
- 深いフィードフォワード rectifier ネットワークの勾配は深さが増すにつれて白色雑音のように見え、勾配相関は深さに対して指数的に減衰する。
- ResNets のスキップ接続は勾配のホワイトニングを大幅に遅くし、構造を保持して非常に深いネットの訓練を実現する。
- バッチ正規化は勾配構造を変え、ニューロンを活性化状態に保ち、空間的な活性化パターンを制御して勾配相関に影響を与える。
- ResNets における β-リスケーリング(β ∈ [0.1,0.3])は勾配のホワイトニングをさらに低減し、深さとともに勾配相関の減衰を遅らせる。
- looks-linear 初期化(LL-init)はスキップ接続なしで非常に深いネットの訓練を可能にし、CIFAR-10 実験で ResNets に匹敵する性能を達成する。
- CIFAR-10 と畳み込みネットの経験的結果は ResNets で勾配ホワイトニングが緩和され、LL-init と直交カーネルが標準初期化を超える深いネットを訓練可能であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。