QUICK REVIEW

[論文レビュー] Risk Bounds for High-dimensional Ridge Function Combinations Including Neural Networks

Jason M. Klusowski, Andrew R. Barron|arXiv (Cornell University)|Jul 5, 2016

Model Reduction and Neural Networks参考文献 25被引用数 37

ひとこと要約

この論文は、スペクトルノルムとアトミックノルムを活用することで、リッジ関数の線形結合（特に1層ニューラルネットワークを含む）を用いた高次元関数推定のリスクバウンドを確立する。連続的パラメータ空間を用いる場合、推定誤差は $(v_{f^\bullet}^4 \frac{"\log d"}{n})^{1/3}$ に減少し、$d \gg n$ の高次元設定において、古典的バウンドを著しく改善する。滑らかな活性化関数（シグモイド、ラムプ、正弦関数など）に適用可能であり、パラメータ数が標本サイズを上回る場合でも収束が良好であることを示している。

ABSTRACT

Let $ f^{\star} $ be a function on $ \mathbb{R}^d $ with an assumption of a spectral norm $ v_{f^{\star}} $. For various noise settings, we show that $ \mathbb{E}\|\hat{f} - f^{\star} \|^2 \leq \left(v^4_{f^{\star}}\frac{\log d}{n} ight)^{1/3} $, where $ n $ is the sample size and $ \hat{f} $ is either a penalized least squares estimator or a greedily obtained version of such using linear combinations of sinusoidal, sigmoidal, ramp, ramp-squared or other smooth ridge functions. The candidate fits may be chosen from a continuum of functions, thus avoiding the rigidity of discretizations of the parameter space. On the other hand, if the candidate fits are chosen from a discretization, we show that $ \mathbb{E}\|\hat{f} - f^{\star} \|^2 \leq \left(v^3_{f^{\star}}\frac{\log d}{n} ight)^{2/5} $. This work bridges non-linear and non-parametric function estimation and includes single-hidden layer nets. Unlike past theory for such settings, our bound shows that the risk is small even when the input dimension $ d $ of an infinite-dimensional parameterized dictionary is much larger than the available sample size. When the dimension is larger than the cube root of the sample size, this quantity is seen to improve the more familiar risk bound of $ v_{f^{\star}}\left(\frac{d\log (n/d)}{n} ight)^{1/2} $, also investigated here.

研究の動機と目的

高次元関数推定におけるリッジ関数の線形結合を用いた一般化誤差バウンドを導出すること。
非パラメトリックおよび非線形推定において、従来のバウンドが失敗する $d \gg n$ の課題に対処すること。
パラメータ数が標本サイズを上回る場合でも、リスクが小さく保たれることを示すこと。
1層ニューラルネットワークとリッジ関数近似の既存理論を統合・拡張すること。
スペクトルノルムの制御とアトミックノルム正則化を通じて、改善された収束レートを確立すること。

提案手法

リッジ関数 $f(x) = \sum_{k=1}^m c_k \phi(a_k \cdot x + b_k)$ の連続的パラメータ空間上での罰則付き最小二乗推定量を用いる。
関数辞書 $\mathcal{H}$ からの表現における係数の $\ell_1$-ノルムの最小値として、アトミックノルム $\|f\|_{\mathcal{H}}$ を定義する。
ターゲット関数 $f^\star$ の滑らかさと正則性を定量化するため、スペクトルノルム $v_{f^\star,s} = \int_{\mathbb{R}^d} \|\omega\|_1^s |\widetilde{f}(\omega)| d\omega$ を導入する。
線形結合 $\pm(\alpha \cdot x - t)_+$ を構成するために、密度 $|\cos(\|\omega\|_1 t + b(\omega))| \|\omega\|_1^2 |\widetilde{f}(\omega)|$ に比例するランダムサンプリングを用いた近似法を適用する。
フビニの定理とフーリエ変換の積分表現を用いて、近似誤差と複雑さのバランスを取ることでリスクバウンドを導出する。
2次近似のために、二乗リッジ関数 $(a_k \cdot x + b_k)^2_+$ を用いることで、高階数のテイラー展開への拡張を実現する。

実験結果

リサーチクエスチョン

RQ1パラメータ数 $d$ が標本サイズ $n$ を上回る高次元関数推定において、リスクバウンドを導出できるか？
RQ2連続的パラメータ空間と離散化されたパラメータ空間の選択が、リッジ関数推定量の収束速度にどのように影響するか？
RQ3特にニューラルネットワーク型モデルにおいて、リッジ関数の線形結合の最適収束レートは何か？
RQ4スペクトルノルム $v_{f^\star,s}$ は、近似誤差を制御し、高次元設定に一般化可能か？
RQ5アトミックノルムと罰則付き最小二乗推定量は、高次元における一般化性能の向上にどのように作用するか？

主な発見

連続的パラメータ空間の場合のリスクバウンドは $\mathbb{E}\|\hat{f} - f^\star\|^2 \leq \left(v_{f^\star}^4 \frac{\log d}{n}\right)^{1/3}$ であり、$d \gg n$ 時に古典的バウンドを上回る。
離散化されたパラメータ空間では、リスクバウンドが $\mathbb{E}\|\hat{f} - f^\star\|^2 \leq \left(v_{f^\star}^3 \frac{\log d}{n}\right)^{2/5}$ に抑えられ、高次元ではやや遅いがより好ましい収束レートを示す。
バウンドはシグモイド、ラムプ、正弦関数、およびそれらの二乗形を含む広範な活性化関数クラスに適用可能で、1層ニューラルネットワークへの応用を可能にする。
パラメータ $m$ 個のリッジ関数を用いた $f^\star$ の近似誤差は、$\pm(\alpha \cdot x - t)_+$ を用いる場合 $16v_{f^\star,2}^2 / m$ で抑えられ、2次近似では $16v_{f^\star,3}^2 / m$ で抑えられる。
無限次元の辞書を用いた非パラメトリック推定が可能で、パラメータ空間の離散化を回避することで、柔軟性が向上し、適応性が向上する。
結果は、$d \gg n$ 時に一般化誤差が小さく保たれることを示しており、高次元領域におけるニューラルネットワーク理論的理解のギャップを解消している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。