QUICK REVIEW

[論文レビュー] Avoiding pathologies in very deep networks

David Duvenaud, Oren Rippel|arXiv (Cornell University)|Feb 24, 2014

Gaussian Processes and Bayesian Inference参考文献 28被引用数 84

ひとこと要約

この論文は、非常に深いニューラルネットワークにおいて、深さが増すにつれて表現能力が1つの自由度にまで縮小する病理的崩壊を特定し、層間に情報を保持する入力接続型アーキテクチャを提案する。深グラディアンプロセスとカーネル合成を用いて、標準アーキテクチャは表現的退化を示すが、提案されたアーキテクチャは無限深さ極限においても豊富で多様な特徴表現を維持することを示している。

ABSTRACT

Choosing appropriate architectures and regularization strategies for deep networks is crucial to good predictive performance. To shed light on this problem, we analyze the analogous problem of constructing useful priors on compositions of functions. Specifically, we study the deep Gaussian process, a type of infinitely-wide, deep neural network. We show that in standard architectures, the representational capacity of the network tends to capture fewer degrees of freedom as the number of layers increases, retaining only a single degree of freedom in the limit. We propose an alternate network architecture which does not suffer from this pathology. We also examine deep covariance functions, obtained by composing infinitely many feature transforms. Lastly, we characterize the class of models obtained by performing dropout on Gaussian processes.

研究の動機と目的

関数上の事前分布として深層ニューラルネットワークの表現的容量を分析すること。
標準的な深層アーキテクチャが層をまたいで情報が消失する病理的挙動を特定すること。
各層に入力を接続することで、表現的退化を回避する修正されたネットワークアーキテクチャを提案すること。
深層カーネルとドロップアウト正則化付きガウス過程を、深層学習の代替的なインダクティブバイアスとして研究すること。
事前分布の分析を通じて、重み初期化、正則化、アーキテクチャ設計に関する理論的知見を提供すること。

提案手法

各層の変換をガウス過程事前分布から抽出する深グラディアンプロセス（DGPs）として深層ニューラルネットワークをモデル化すること。
DGPsにおける関数合成の極限的挙動を分析し、標準アーキテクチャが深さとともに表現的自由度を失うことを示すこと。
各層が元の入力と直前の層の出力を両方受け取る入力接続型アーキテクチャを提案し、入力情報の保存を実現すること。
固定特徴マップ（例：アークコサインまたは平方指数カーネル）の合成により、深層カーネルの閉形式表現を導出すること。
ガウス過程におけるドロップアウト正則化を特徴付け、既存のモデルと同等であり、効率的な推論を可能にすることを示すこと。
メルサーサブの定理を用いて、カーネル関数とニューラルネットワーク内の暗黙的特徴表現を結びつけること。

実験結果

リサーチクエスチョン

RQ1なぜ非常に深いニューラルネットワークは、深さが増すにつれて表現的容量を失うのか？
RQ2深層ネットワークにおける表現的自由度の崩壊を防ぐためにどのようなアーキテクチャ的選択が有効か？
RQ3無限幅・無限深さ極限において、深グラディアンプロセスはどのように深層ニューラルネットワークのインダクティブバイアスをモデル化するか？
RQ4固定特徴マップの合成によって得られる深層カーネルの関数形と表現的容量は何か？
RQ5ガウス過程に適用されたドロップアウトは、ニューラルネットワークにおける標準的なドロップアウトとどのように関係し、その事前分布構造は何か？

主な発見

独立したGP事前分布から構成される標準的な深層アーキテクチャは、無限深さ極限において1つの自由度にまで収縮し、入力の大部分の変化に対して不変となる。
提案された入力接続型アーキテクチャは、各層で元の入力信号を保存することで、この崩壊を防ぎ、豊富な表現的容量を維持する。
無限個の固定特徴マップの合成によって得られる深層カーネルは、複雑で階層的な表現を保持し、平方指数カーネルやアークコサインカーネルのような一般的なカーネルについて解析的に導出可能である。
ガウス過程にドロップアウトを適用すると、特定の重み共有形式と正則化を有する効率的な事前分布が得られ、ニューラルネットワークにおける標準的ドロップアウトと類似する。
分析により、深層学習の多くの現象（例：深さに伴う性能低下）は、ネットワークの事前分布に埋め込まれたインダクティブバイアスに起因することが明らかになった。
これらの発見は、アーキテクチャ選択、重み初期化、正則化戦略が、関数上の事前分布の明示的分析に基づいて設計されるべきであることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。