QUICK REVIEW

[論文レビュー] On the Expressive Power of Deep Neural Networks

Maithra Raghu, Ben Poole|arXiv (Cornell University)|Jun 16, 2016

Adversarial Robustness in Machine Learning参考文献 26被引用数 75

ひとこと要約

本稿では、深層ニューラルネットワークの表現力の統一的測定指標として軌道長さを導入し、深さに伴い感度が下層の重みに高まるため、表現力が指数関数的に増大することを示している。下層の訓練が性能向上に顕著に寄与することを示し、バッチ正則化と同等の結果を得つつ、より効率的な代替手段として軌道正則化を提案している。

ABSTRACT

We propose a new approach to the problem of neural network expressivity, which seeks to characterize how structural properties of a neural network family affect the functions it is able to compute. Our approach is based on an interrelated set of measures of expressivity, unified by the novel notion of trajectory length, which measures how the output of a network changes as the input sweeps along a one-dimensional path. Our findings can be summarized as follows: (1) The complexity of the computed function grows exponentially with depth. (2) All weights are not equal: trained networks are more sensitive to their lower (initial) layer weights. (3) Regularizing on trajectory length (trajectory regularization) is a simpler alternative to batch normalization, with the same performance.

研究の動機と目的

深層ネットワークの表現力に与える構造的深さと幅の影響を、極端でない実用的状況において理解すること。
既存のハンドコーディングされた重み構築による下界と一致する理論的上界の欠如を是正すること。
ネットワークの表現力と実際の性能の関係、特に学習済みモデルにおける関係を調査すること。
特定の重み値に依存せず、標準的なアーキテクチャに適用可能な表現力の測定フレームワークを構築すること。
正則化がネットワークの表現力と一般化性能に与える役割を調査すること。

提案手法

ネットワーク出力が1次元入力経路に沿ってどのように変化するかを捉える非線形変換の複雑さを測る指標として、軌道長さを定義すること。
活性パターン（活性化するニューロンの異なる組み合わせの数）を、ネットワーク表現力の代理指標とし、理論的上界を導出すること。
入力のスイープと重みのスイープの間の統計的双対性を分析し、表現力メトリクスにおいて等価であることを示すこと。
バッチ正則化にインspiredされた、軌道長さを制御することで表現学習を安定化させる、軌道正則化を提案すること。
MNISTおよびCIFAR-10を用いた実験により、重みの摂動に対するロバストネスと、層別に訓練した際の性能を評価すること。
ランダム行列理論と統計的双対性を適用し、軌道長さと二分可能なパターン数が深さに伴い指数関数的に増大し、幅とは無関係であることを示すこと。

実験結果

リサーチクエスチョン

RQ1深層ニューラルネットワークの表現力は深さとともにどのように増大するのか？その背後にあるメカニズムは何か？
RQ2学習済みネットワークにおいて、なぜ下層の重みが上層の重みよりも性能に大きな影響を及ぼすのか？
RQ3軌道長さは、異なるネットワークアーキテクチャや初期化スケームにおいても、表現力の統一的測定指標として機能できるか？
RQ4正則化、特にバッチ正則化が、軌道長さと表現の安定性にどのように影響を与えるか？
RQ5軌道長さに基づく新しい正則化スキームは、計算コストを低減しつつ、バッチ正則化と同等の性能を達成できるか？

主な発見

軌道長さはネットワークの深さに伴い指数関数的に増大しており、これは深層ネットワークが浅層ネットワークよりもはるかに複雑な関数を表現可能であることを示している。
学習済みネットワークは、下層の重みに対するノイズに著しく感受することが確認され、初期層が出力に与える影響が大きいことが裏付けられた。
下層がよく訓練されると、たとえ1層しか更新しなくても性能が顕著に向上することが示され、下層の影響力の大きさが明確になった。
軌道正則化はバッチ正則化と同等の性能を達成するが、計算オーバーヘッドが低いため、より効率的な代替手段であることが示唆された。
得られる二分可能なパターン数（分類パターン）は、スイープされた層の上にある残りの層の数にのみ依存し、全深さとは無関係であるため、深さ依存の表現力はモジュール的であることが示された。
最適化により軌道長さが増大し、特に重み初期値が小さい場合に顕著であるため、最適化が表現力を向上させ、精度向上に寄与することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。