Skip to main content
QUICK REVIEW

[論文レビュー] Skip Connections Eliminate Singularities

A. Emin Orhan, Xaq Pitkow|arXiv (Cornell University)|Jan 31, 2017
Stochastic Gradient Optimization Techniques被引用数 86
ひとこと要約

本論は、スキップ接続が損失地形の非同定性特異性(排除、重なり、線形依存性)を取り除くことによって深層ネットワークのトレーニングを改善すると主張しており、理論的分析と深層ネットワークおよびデータセット全体にわたる実証結果で裏付けられる。

ABSTRACT

Skip connections made the training of very deep networks possible and have become an indispensable component in a variety of neural architectures. A completely satisfactory explanation for their success remains elusive. Here, we present a novel explanation for the benefits of skip connections in training very deep networks. The difficulty of training deep networks is partly due to the singularities caused by the non-identifiability of the model. Several such singularities have been identified in previous works: (i) overlap singularities caused by the permutation symmetry of nodes in a given layer, (ii) elimination singularities corresponding to the elimination, i.e. consistent deactivation, of nodes, (iii) singularities generated by the linear dependence of the nodes. These singularities cause degenerate manifolds in the loss landscape that slow down learning. We argue that skip connections eliminate these singularities by breaking the permutation symmetry of nodes, by reducing the possibility of node elimination and by making the nodes less linearly dependent. Moreover, for typical initializations, skip connections move the network away from the "ghosts" of these singularities and sculpt the landscape around them to alleviate the learning slow-down. These hypotheses are supported by evidence from simplified models, as well as from experiments with deep networks trained on real-world datasets.

研究の動機と目的

  • スキップ接続が非常に深いネットワークのトレーニングの恩恵を説明し、動機づける。
  • 学習を遅らせる三種類の特異性(排除、重なり、線形依存性)を特定・特徴付ける。
  • スキップ接続がデグネラシーを低減し、アーキテクチャとデータセットを跨いでトレーニングを加速させることを示す。
  • 標準的な残差を超えて特異性をさらに緩和する実践的な代替案とアーキテクチャ的洞察を提供する。

提案手法

  • 全結合層における三つの特異性のモデル分析:排除、重なり、線形依存。
  • スキップ接続が特異的多様体を破壊し、識別性を回復する理論的議論。
  • CIFAR-100/CIFAR-10/100 に対するハス行列固有値密度推定を用いたプレーン、レジデュアル、ハイパー・レジデュアルアーキテクチャの実証的比較。
  • バイアスターゲット正則化としての BiasReg の導入—対称性の破壊と特異性の排除を簡易に行う。
  • 対称性破壊効果を検証するための非同一性スキーム(ランダムな高密度直交スキップを含む)の評価。
  • BiasReg ネットワークに対するバッチ正規化の影響を含む勾配ノルムと勾配消失の調査。

実験結果

リサーチクエスチョン

  • RQ1スキップ接続は深層ネットワークにおける非同定性特異性を取り除くのか?
  • RQ2排除、重なり、線形依存性の特異性は学習ダイナミクスと最適化地形にどのように影響するのか?
  • RQ3スキップ接続は初期設定が良好であってもトレーニング速度と頑健性を改善するのか?
  • RQ4BiasReg や直交スキップなどの代替的な対称性破壊手法はスキップ接続の利益を再現できるのか?

主な発見

  • スキップ接続はヘッセ行列スペクトルのデグネラシーを低減し、プレーンなネットに比べてトレーニングが速くなることと相関。
  • ハイパー・レジデュアルアーキテクチャは、研究対象のアーキテクチャの中で最も低いデグネラシーと最も高い初期トレーニング速度を示す。
  • シンメトリーを破るためのバイアス正則化はプレーンなネットより性能を向上させるが、残差には完全には及ばない。
  • 直交(密集)スキップは、単位の不明瞭さを解消し排除・重なりリスクを減らす点でアイデンティティ・スキップをやや上回る。
  • 悪意ある初期化の結果は、スキップ接続の恩恵が初期化を超え、特異点付近のランドスケープ再構成を示す。
  • 浅いネットワークと深いネットワークの両方のエビデンスは、特異性が最適化の意味あるボトルネックであり、スキップ接続がそれを緩和することを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。