QUICK REVIEW

[論文レビュー] Toward Deeper Understanding of Neural Networks: The Power of Initialization and a Dual View on Expressivity

Amit Daniely, Roy Frostig|arXiv (Cornell University)|Feb 18, 2016

Adversarial Robustness in Machine Learning被引用数 46

ひとこと要約

本論文は、ニューラルネットワークと構成的カーネル空間の間に双対性を導入し、ランダム重み初期化が双対カーネル空間に属するすべての関数を近似できる十分に豊かな表現を生成することを示している。主な結果は、最後の層のみを調整（凸最適化により）することで良好な性能が達成できることであり、非凸な目的関数にもかかわらず学習が成功する理由を説明するとともに、初期化およびアーキテクチャ設計の原理的視点を提供する。

ABSTRACT

We develop a general duality between neural networks and compositional kernels, striving towards a better understanding of deep learning. We show that initial representations generated by common random initializations are sufficiently rich to express all functions in the dual kernel space. Hence, though the training objective is hard to optimize in the worst case, the initial weights form a good starting point for optimization. Our dual view also reveals a pragmatic and aesthetic perspective of neural networks and underscores their expressive power.

研究の動機と目的

勾配上昇法が非凸な最適化のランドスケープにかかわらず、深層ニューラルネットワークの学習に成功する理由を理解すること。
ニューラルネットワークのアーキテクチャとその対応する構成的カーネル空間との間の双対性を形式化すること。
ランダム重み初期化の実験的成功を説明し、最適化の強力な出発点としての役割を明らかにすること。
ReLU活性化関数や畳み込み構造といった一般的なアーキテクチャ選択の理論的根拠を提供すること。
標準的手法を改善するための補正係数を組み込んだ原理的な初期化スキームを導出すること。

提案手法

特定の重みに依存しない、順方向ネットワークの構造的形を抽象化する「計算スケルトン」の概念を導入する。
各非線形関数に対して双対活性化関数を定義し、それに対応する構成的カーネル空間を構築可能にする。
ランダム重みによって生成される初期表現が、双対カーネル空間において稠密な空間を形成することを確立し、その空間に属するすべての関数を近似可能であることを示す。
最後の層の重みのみを最適化することが、アーキテクチャ選択の凸的代理問題であることを示し、双対空間に属する任意の関数を近似可能であることを示す。
活性化関数（例：ReLU）の数学的解析を通じて、正同次性による初期化分散に対するロバストネスを示す。
スケーリング下でも初期表現の分布を保持する補正初期化スキームを導出する。

実験結果

リサーチクエスチョン

RQ1なぜランダム重み初期化が非凸性があるにもかかわらず、深層ニューラルネットワークにおける効果的な最適化をもたらすのか？
RQ2ニューラルネットワークの表現力は、そのアーキテクチャおよび活性化関数とどのように正式に結びついているのか？
RQ3任意のニューラルネットワークアーキテクチャに対して双対カーネル空間を構築可能か？そしてそれはネットワークの関数空間について何を明らかにするか？
RQ4なぜReLU活性化関数は実際の応用で特に効果的なのか？また、初期化摂動に対してロバストである構造的性質は何か？
RQ5最後の層のチューニングプロセスは、完全な学習前の異なるネットワークアーキテクチャを比較するための凸的代理問題として機能できるか？

主な発見

ランダム重み初期化によって生成される表現は、与えられたネットワークアーキテクチャに関連する双対カーネル空間に属するすべての関数を十分に近似可能である。
最後の層の重みのみを最適化することは凸最適化問題であり、双対空間に属する任意の関数を近似可能であるため、学習アルゴリズムの成功を説明できる。
ReLU活性化関数は正同次性のおかげで初期化分散に対してロバストであり、スケーリング下でも表現の分布を保持する。
ReLU活性化関数を用いた完全結合ネットワークでは、初期化スケールがやや変化しても双対カーネルをよく近似できる。
深さが増すに従い、ReLUを用いた深層完全結合ネットワークの双対カーネルは、非線形活性化関数にかかわらず退化形に収束する。
特定の活性化関数を用いた2つの連続する完全結合層は、合成された双対活性化関数を備えた単一の層に置き換え可能であり、双対カーネル空間に変更を加えない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。