QUICK REVIEW

[論文レビュー] Memorization in Overparameterized Autoencoders

Adityanarayanan Radhakrishnan, Karren Yang|arXiv (Cornell University)|Oct 16, 2018

Generative Adversarial Networks and Image Synthesis参考文献 28被引用数 23

ひとこと要約

この論文は、過パラメータ化されたオートエンコーダーが、訓練例に近づけるよう入力を投影する記憶化への強いインダクティブバイアスを示している。訓練済みのネットワークは、より広範なデータ多様体に一般化するのではなく、訓練例に近づく。勾配降下法を用いることで、1層のオートエンコーダーは訓練データの非線形スパンに射影するが、深層オートエンコーダーは訓練点に局所的に収縮する。畳み込みアーキテクチャでは、深さはこの行動を実現するために必要かつ十分であり、データ依存の自己正則化メカニズムが明らかになった。

ABSTRACT

The ability of deep neural networks to generalize well in the overparameterized regime has become a subject of significant research interest. We show that overparameterized autoencoders exhibit memorization, a form of inductive bias that constrains the functions learned through the optimization process to concentrate around the training examples, although the network could in principle represent a much larger function class. In particular, we prove that single-layer fully-connected autoencoders project data onto the (nonlinear) span of the training examples. In addition, we show that deep fully-connected autoencoders learn a map that is locally contractive at the training examples, and hence iterating the autoencoder results in convergence to the training examples. Finally, we prove that depth is necessary and provide empirical evidence that it is also sufficient for memorization in convolutional autoencoders. Understanding this inductive bias may shed light on the generalization properties of overparametrized deep neural networks that are currently unexplained by classical statistical theory.

研究の動機と目的

訓練データを補間するが、一般化する能力を持つ過パラメータ化されたオートエンコーダーのインダクティブバイアスを理解すること。
過パラメータ化されたネットワークにおける勾配降下法が、任意の補間関数ではなく、訓練例の周囲に集中する解に収束する理由を調査すること。
記憶化（訓練データへの収縮として定義される）が、近似的にゼロの再構成誤差でさえも、深層オートエンコーダーにおいて堅牢に成立することを確立すること。
畳み込みオートエンコーダーにおいて、深さが記憶化を実現するために必要かつ十分であることを示すこと。
重み初期化の役割を明確にし、ゼロ中心の初期化がクリーンな記憶化に不可欠であることを示すこと。

提案手法

勾配降下法で訓練された1層の全結合オートエンコーダーが、訓練例の非線形スパンに入力を射影する解に収束することを証明すること。
深層全結合オートエンコーダーが、訓練点において局所的に収縮する写像を学習することを示し、繰り返し適用することで最も近い訓練例に収束することを示すこと。
ReLU活性化関数を用いて非線形スパンを表す区分線形関数を構築し、(n+1)·d 個の隠れユニットを持つ2層ネットワークがこの写像を達成できることを証明すること。
理論的分析と実験的検証により、幅を固定したままでも深さが畳み込みオートエンコーダーにおける記憶化を可能にすることを示すこと。
ゼロ初期化を用いた勾配降下法により、最小ノルム解への収束を保証し、非ゼロ初期化ではノイズの多い記憶化に至ることと対比すること。
MNISTおよびCIFAR-10のオートエンコーダーを用いて実験的に検証し、テスト入力の軌道が反復処理によって訓練画像に収束することを示すこと。

実験結果

リサーチクエスチョン

RQ1過パラメータ化されたオートエンコーダーが勾配降下法で訓練された場合、なぜ任意の補間関数ではなく、訓練データの周囲に集中する解を学習するのか？
RQ2深さが畳み込みオートエンコーダーにおける記憶化をどのように可能にするのか？
RQ3重み初期化はオートエンコーダーにおける記憶化の出現にどのような役割を果たすのか？
RQ4高い再構成誤差がなくても記憶化は発生するのか？また、早期停止に対しても頑健なのか？
RQ5オートエンコーダーにおける記憶化のインダクティブバイアスは、他の深層学習アーキテクチャにも一般化可能か？

主な発見

勾配降下法で訓練された1層の全結合オートエンコーダーは、いかなる入力でも訓練データの非線形スパンに射影し、効果的に訓練データを記憶化する。
深層全結合オートエンコーダーは、訓練点において局所的に収縮する写像を学習し、ネットワークの繰り返し適用により訓練例に収束する。
実験的結果から、より深いネットワークは訓練例への収縮をより速く行うことが確認され、深さが記憶化を強化することを裏付けた。
記憶化は早期停止に対しても頑健であり、高い再構成誤差を必要としない。近縁関数ですら、訓練点において局所的に収縮する可能性がある。
十分に深い場合、畳み込みオートエンコーダーは全結合オートエンコーダーと同様に記憶化行動を示し、深さが記憶化に必要かつ十分であることを確立した。
非ゼロの重み初期化はノイズの多い記憶化を引き起こすが、ゼロ初期化は最小ノルム解へのクリーンな収束を保証し、初期化が記憶化バイアスの観測にいかに重要であるかを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。