QUICK REVIEW

[論文レビュー] Deep Neural Networks Learn Non-Smooth Functions Effectively

Masaaki Imaizumi, Kenji Fukumizu|arXiv (Cornell University)|Feb 13, 2018

Neural Networks and Applications被引用数 25

ひとこと要約

この論文は、ReLU活性化関数を備えた深層ニューラルネットワーク（DNNs）が、滑らかでない、または区分的滑らかでない関数を推定する際に、ほぼ最適の収束速度を達成することを示している。これは、滑らかでない関数の設定下で、カーネル推定器や系列推定器といった標準的手法を上回る性能を発揮する。理論的には、DNNsは一般化誤差率 $ O\left(\max\left\{n^{-2\beta/(2\beta+D)}, n^{-\alpha/\left(\alpha+D-1\right)}\right\} \right) $ を達成し、この関数クラスに対してミニマックス的に最適であり、この収束速度に到達するための深さと幅の設計指針を提供する。

ABSTRACT

We theoretically discuss why deep neural networks (DNNs) performs better than other models in some cases by investigating statistical properties of DNNs for non-smooth functions. While DNNs have empirically shown higher performance than other standard methods, understanding its mechanism is still a challenging problem. From an aspect of the statistical theory, it is known many standard methods attain the optimal rate of generalization errors for smooth functions in large sample asymptotics, and thus it has not been straightforward to find theoretical advantages of DNNs. This paper fills this gap by considering learning of a certain class of non-smooth functions, which was not covered by the previous theory. We derive the generalization error of estimators by DNNs with a ReLU activation, and show that convergence rates of the generalization by DNNs are almost optimal to estimate the non-smooth functions, while some of the popular models do not attain the optimal rate. In addition, our theoretical result provides guidelines for selecting an appropriate number of layers and edges of DNNs. We provide numerical experiments to support the theoretical results.

研究の動機と目的

DNNsが実際の応用で滑らかでない関数に対して標準モデルを上回る理由を理論的に理解するというギャップを埋める。
滑らかでない関数のクラスに完全にカバーされていない、滑らかでない関数を学習する際のDNNの一般化誤差を分析する。
DNNsが滑らかでない関数に対してミニマックス的に最適な収束速度を達成することを示す。これは、カーネル法や系列推定法とは異なり、そのような関数に対しては達成できない。
最適な推定性能を達成するためのDNNの深さと幅の実用的設計ルールを導出する。

提案手法

ReLU活性化関数を用いた最小二乗法およびベイズ推定器を用いたDNN一般化誤差の理論的分析。
滑らかでない回帰におけるDNNの収束速度の導出。滑らかさパラメータ $\alpha$ および $\beta$ と入力次元 $D$ でパrameter化される。
標準的手法（カーネル法や系列推定器）の下界を分析するために、直交基底分解（例：三角関数基底）の利用。
ミニマックス理論の適用により、DNNsが $ O\left(\max\left\{n^{-2\beta/(2\beta+D)}, n^{-\alpha/\left(\alpha+D-1\right)}\right\} \right) $ の最適なレートを対数因子を除き達成することを示す。
アーキテクチャ制約の導出：層数 $ \leq c(1+\max\{\beta/D, \alpha/(2(D-1))\}) $ およびパラメータ数 $ \leq c' n^{\max\{D/(2\beta+D), (D-1)/(\alpha+D-1)\}} $。
理論的収束速度の妥当性と標準モデルとの性能比較を検証するための数値実験。

実験結果

リサーチクエスチョン

RQ1DNNsは、滑らかでない、区分的滑らかでない関数に対して最適な収束速度を達成できるか。標準的手法が失敗する設定下で。
RQ2滑らかでない関数を学習する際のDNNの理論的一般化誤差レートは何か。
RQ3滑らかさパラメータ $\alpha$ および $\beta$ と入力次元 $D$ は、DNNの収束速度にどのように影響するか。
RQ4滑らかでない関数の推定において、DNNsがカーネル法や系列推定法を上回る理由は何か。滑らかでない関数においては、滑らかでない関数の推定において、DNNsがカーネル法や系列推定法を上回る理由は何か。
RQ5最適な推定レートに到達するためのDNNのアーキテクチャ的選択（深さと幅）は何か。

主な発見

DNNsは、滑らかでない関数に対して一般化誤差率 $ O\left(\max\left\{n^{-2\beta/(2\beta+D)}, n^{-\alpha/\left(\alpha+D-1\right)}\right\} \right) $ を達成し、これは対数因子を除きミニマックス的に最適である。
この最適なレートは、カーネル法や直交系列推定器といった標準的手法では達成できない。これは、不連続性の表現が不十分であるため、収束が遅くなる。
$ D=1 $ の場合、直交系列推定器の下界は $ \Omega(n^{-2/3}) $ であり、DNNsは $ O(n^{-2/3}) $ を達成し、最適レートと一致する。
一般の $ D \geq 2 $ に対しては、系列推定器の下界は $ \Omega(n^{-2/(2+D)}) $ であり、DNNsは同じレートを達成し、ミニマックス最適性を確認する。
DNNsに必要な層数は $ c(1+\max\{\beta/D, \alpha/(2(D-1))\}) $ で上限が与えられ、最適な収束が保証される。
最適なレートに到達するためには、パラメータ数が $ c' n^{\max\{D/(2\beta+D), (D-1)/(\alpha+D-1)\}} $ のスケーリングに従う必要がある。これは設計指針を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。