QUICK REVIEW

[論文レビュー] On the Spectral Bias of Deep Neural Networks

Nasim Rahaman, Devansh Arpit|arXiv (Cornell University)|Jun 22, 2018

Adversarial Robustness in Machine Learning参考文献 12被引用数 46

ひとこと要約

この論文は、フーリエ解析を用いてスペクトルバイアスを分析することで、過パラメータ化された深層ニューラルネットワーク（DNN）が、ランダムなデータを記憶できるにもかかわらず、なぜ一般化がうまくいくかを説明する。DNNは滑らかな関数を本質的に好む傾向があり、周波数成分が少なくとも O(k⁻²) の割合で減衰することが示され、高周波数関数がパラメータ空間のより小さい体積を占めることが分かっている。これは、一般化と adversarial な例に対するロバストネスを説明する。

ABSTRACT

It is well known that over-parametrized deep neural networks (DNNs) are an overly expressive class of functions that can memorize even random data with $100\%$ training accuracy. This raises the question why they do not easily overfit real data. To answer this question, we study deep networks using Fourier analysis. We show that deep networks with finite weights (or trained for finite number of steps) are inherently biased towards representing smooth functions over the input space. Specifically, the magnitude of a particular frequency component ($k$) of deep ReLU network function decays at least as fast as $\mathcal{O}(k^{-2})$, with width and depth helping polynomially and exponentially (respectively) in modeling higher frequencies. This shows for instance why DNNs cannot perfectly extit{memorize} peaky delta-like functions. We also show that DNNs can exploit the geometry of low dimensional data manifolds to approximate complex functions that exist along the manifold with simple functions when seen with respect to the input space. As a consequence, we find that all samples (including adversarial samples) classified by a network to belong to a certain class are connected by a path such that the prediction of the network along that path does not change. Finally we find that DNN parameters corresponding to functions with higher frequency components occupy a smaller volume in the parameter.

研究の動機と目的

過パラメータ化されたDNNが、高い容量を持っているにもかかわらず、実際のデータに対して過学習しない理由を理解すること。
さまざまな周波数にわたる関数を表現する際のDNNのインダクティブバイアスを調査すること。
低次元のデータ多様体の幾何構造がDNNの一般化にどのように影響するかを分析すること。
予測のパス接続性を通じて、DNNが adversarial な例に対してなぜロバストであるかを説明すること。
高周波数関数が占めるパラメータ空間の体積を定量化すること。

提案手法

周波数成分の減衰を調べるために、深層ReLUネットワークのフーリエスペクトルを分析すること。
周波数成分kの大きさが少なくとも O(k⁻²) の割合で減衰することを示す理論的境界を導出すること。
幅と深さを、それぞれ高周波数を多項式的・指数的にモデル化する要因として用いること。
データ多様体の幾何構造が関数近似に与える影響を調べ、多様体に沿った複雑な関数が入力空間では単純に見えることを見ること。
同じクラスに分類されるすべてのサンプルが、ネットワークの予測が変化しないパスで接続されていることを証明すること。
異なる周波数成分を持つ関数が占めるパラメータ空間の体積を測定し、高周波数関数がより小さい体積を占めることを示すこと。

実験結果

リサーチクエスチョン

RQ1過パラメータ化されたDNNは、ランダムラベルを記憶できるにもかかわらず、なぜ実際のデータに対して過学習しないのか？
RQ2DNNの関数の周波数スペクトルはどのように振る舞い、その減衰率は何かが決定するのか？
RQ3低次元のデータ多様体の幾何構造は、DNNの関数近似にどのように影響するのか？
RQ4なぜ adversarial な例はより破壊的でないのか？DNNのどの構造的性質がこれを説明するのか？
RQ5パラメータ空間のうち、高周波数成分を持つ関数が占める割合はどの程度か？

主な発見

訓練済みDNNにおける周波数成分kの大きさは、少なくとも O(k⁻²) の割合で減衰しており、これは低周波数・滑らかな関数を強く好むバイアスを示している。
ネットワークの幅は高周波数を多項式的にモデル化するのを助け、深さは指数的に助け、より良い高周波数表現が可能になる。
DNNはピークがきつい、デルタ関数に近い関数を完全に記憶できない。これはこのスペクトルバイアスに起因する。
同じクラスに分類されるすべての入力は、ネットワークの予測が一定のまま保たれるパスで接続されており、これは小さな摂動に対してロバストであることを説明する。
高周波数成分を持つ関数は、パラメータ空間において顕著に小さい体積を占めている。これは一般化の幾何的根拠を示唆している。
スペクトルバイアスは、最適化の結果ではなく、アーキテクチャと学習プロセスに起因し、有限重みを持つDNNに固有のものである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。