QUICK REVIEW

[論文レビュー] Frequency Bias in Neural Networks for Input of Non-Uniform Density

Ronen Basri, Meirav Galun|arXiv (Cornell University)|Mar 10, 2020

Stochastic Gradient Optimization Techniques参考文献 24被引用数 29

ひとこと要約

この論文は、非一様な密度を持つ訓練データを用いた過パラメータ化されたニューラルネットワークにおける周波数バイアスを、ニューラル接線カーネル（NTK）フレームワークを用いて調査する。周波数 $\kappa$ の調和関数の収束時間は $O(\kappa^d / p^*)$ に比例することを示しており、ここで $p^*$ は最小の局所的データ密度を表す。これは、高周波成分が密度の高い領域でより速く学習されることを示しており、従来の周波数バイアスの結果を一様なデータ分布に限らない範囲へと拡張するものである。

ABSTRACT

Recent works have partly attributed the generalization ability of over-parameterized neural networks to frequency bias -- networks trained with gradient descent on data drawn from a uniform distribution find a low frequency fit before high frequency ones. As realistic training sets are not drawn from a uniform distribution, we here use the Neural Tangent Kernel (NTK) model to explore the effect of variable density on training dynamics. Our results, which combine analytic and empirical observations, show that when learning a pure harmonic function of frequency $κ$, convergence at a point $\x \in \Sphere^{d-1}$ occurs in time $O(κ^d/p(\x))$ where $p(\x)$ denotes the local density at $\x$. Specifically, for data in $\Sphere^1$ we analytically derive the eigenfunctions of the kernel associated with the NTK for two-layer networks. We further prove convergence results for deep, fully connected networks with respect to the spectral decomposition of the NTK. Our empirical study highlights similarities and differences between deep and shallow networks in this model.

研究の動機と目的

過パラメータ化されたニューラルネットワークにおける周波数バイアスが非一様なデータ密度に与える影響を理解すること。
従来、一様なデータ分布に限られていた周波数バイアス理論を、現実的で非一様なデータに拡張すること。
NTKフレームワークを用いて、非一様な入力密度下での浅い（2層）および深く完全接続されたネットワークの収束ダイナミクスを分析すること。
学習速度が局所的データ密度および目的関数の周波数にどのように依存するかを定量すること。

提案手法

過パラメータ化されたネットワークの学習ダイナミクスを非一様なデータ密度下で分析するために、ニューラル接線カーネル（NTK）モデルを用いる。
単位円上の2層ReLUネットワークに対して、局所密度が区分定数である場合のNTKの固有関数および固有値の閉形式表現を導出する。
$d$ 次元の入力空間において、周波数 $\kappa$ の純粋な調和関数の収束時間が $O(\kappa^d / p^*)$ に比例することを証明する。ここで $p^*$ は最小の局所的密度を表す。
深く完全接続されたネットワークへの理論的分析を拡張し、収束速度が目的関数のNTK固有ベクトルへの射影に依存することを証明する。
合成データを用いて $\mathbb{S}^{1}$ および $\mathbb{S}^{2}$ 上で結果を実験的に検証する。密度が区分定数で、周波数の異なる目的関数を用いる。
浅いネットワークと深いネットワークの間で固有関数および固有値の減衰を比較し、非一様性下での周波数バイアスの類似性と相違点を評価する。

実験結果

リサーチクエスチョン

RQ1非一様なデータ密度は、過パラメータ化されたニューラルネットワークで観測される周波数バイアスにどのように影響するか？
RQ2局所的データ密度が異なる領域で、周波数 $\kappa$ の調和関数を学習するための理論的収束時間は何か？
RQ3データ密度が非一様な場合、深く完全接続されたネットワークは浅いネットワークと同様の周波数バイアス行動を示すか？
RQ4非一様なデータにおけるNTKの固有関数は、密度の高い領域でより高い局所周波数を特徴づけるか？
RQ5非一様データ下での深層ネットワークのNTKのスペクトル分解は、浅層ネットワークとどのように比較されるか？

主な発見

周波数 $\kappa$ の調和関数を学習する収束時間は $O(\kappa^d / p^*)$ に比例し、$p^*$ は最小の局所的データ密度を表す。これは、高周波成分が密度の高い領域でより速く学習されることを示している。
2層ReLUネットワーク（$\mathbb{S}^1$ 上）では、NTKの固有関数が局所的周波数が区分定数であることを示しており、データ密度が高い領域ではより高い周波数を示す。
実験的結果は、深く完全接続されたネットワークが同様の周波数バイアスを示しており、非一様な密度下でも収束時間が $O(\kappa^d / p^*)$ に比例することを確認している。
NTKの固有値は周波数とともに減衰し、非一様なデータ分布下でも深層ネットワークにおける周波数バイアスの存在を支持している。
非一様な密度下での深層ネットワークのNTK固有関数は、実験的に浅層ネットワークのそれらと区別できないため、共通のインダクティブバイアスを有していると示唆している。
一様なデータ分布の場合、NTKの固有関数は球面調和関数であり、周波数 $\kappa$ の収束時間は $O(\kappa^d)$ に比例し、従来の結果と整合的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。