Skip to main content
QUICK REVIEW

[論文レビュー] Adaptivity of deep ReLU network for learning in Besov and mixed smooth Besov spaces: optimal rate and curse of dimensionality

Taiji Suzuki|arXiv (Cornell University)|Oct 18, 2018
Image and Signal Denoising Methods被引用数 81
ひとこと要約

この論文は深層 ReLU ネットワークを Besov 空間と混合 Besov 空間の関数について分析し、ミニマックス最適な近似・推定率を示し、適応性が混合平滑空間における次元の呪いを回避するのに役立つことを示している。

ABSTRACT

Deep learning has shown high performances in various types of tasks from visual recognition to natural language processing, which indicates superior flexibility and adaptivity of deep learning. To understand this phenomenon theoretically, we develop a new approximation and estimation error analysis of deep learning with the ReLU activation for functions in a Besov space and its variant with mixed smoothness. The Besov space is a considerably general function space including the Holder space and Sobolev space, and especially can capture spatial inhomogeneity of smoothness. Through the analysis in the Besov space, it is shown that deep learning can achieve the minimax optimal rate and outperform any non-adaptive (linear) estimator such as kernel ridge regression, which shows that deep learning has higher adaptivity to the spatial inhomogeneity of the target function than other estimators such as linear ones. In addition to this, it is shown that deep learning can avoid the curse of dimensionality if the target function is in a mixed smooth Besov space. We also show that the dependency of the convergence rate on the dimensionality is tight due to its minimax optimality. These results support high adaptivity of deep learning and its superior ability as a feature extractor.

研究の動機と目的

  • 深層 ReLU ネットワークは Besov 空間と混合 Besov 空間をミニマックス最適に近似できることを示す。
  • 深層学習は Besov 空間について kernel ridge regression のような線形推定量より優れていることを示す。
  • 混合平滑 Besov 空間は深層ネットワークを用いることで次元の呪いを回避できることを確立する。
  • Besov/混合 Besov の仮定の下で明示的な近似誤差・推定誤差の境界を提供する。

提案手法

  • 再LU ネットワークを用いた Besov 空間および混合 Besov 空間の近似誤差境界を、組み合わせ B-spline および B-spline 表現を通して導出する。
  • 指定された L-∞ 誤差内で B-spline を近似する ReLU ネットワークの存在を証明する。
  • Besov/混合 Besov 近似境界を非パラメトリック回帰設定における一般化/推定誤差境界へと翻訳する。
  • Besov 空間の推定に対するミニマックス最適レートを導出し、混合 Besov 空間で改善されたレートを示す。
  • 適応的な深層学習のレートを線形(例:カーネルリッジ)レートと比較し、最適性の主張を確立する。

実験結果

リサーチクエスチョン

  • RQ1ReLU ベースの深層ネットワークは Besov 空間の関数についてミニマックス最適近似レートを達成できるか。
  • RQ2Besov 空間に対して ReLU ネットワークは近似誤差・推定誤差の両方で線形推定量(カーネルリッジ回帰など)を上回るか。
  • RQ3混合平滑 Besov 空間は深層ネットワークが次元の呪いを回避できるか、そして得られるレートはどうなるか。
  • RQ4ネットワークのアーキテクチャパラメータ(深さ・幅・疎性・ノルム上限)は具体的な近似・推定誤差境界へどう翻訳されるか。

主な発見

  • 深層 ReLU ネットワークは、特定の平滑性・積分性条件の下で Besov 空間に対してミニマックス最適の近似レートを達成する。
  • 深層ネットは Besov 空間に対して kernel ridge regression のような線形推定量よりも優れており、特に局所的に不均一な光滑性を持つターゲットの場合に顕著である。
  • 混合平滑 Besov 空間では深層ネットは次元の呪いを回避でき、sとdに依存するレートでミニマックス近傍のレートを達成する。
  • B-spline による近似誤差境界は有限のネットワーク構成と明示的な L^r ノルムをもたらし、適応性の利点を示す。
  • 推定誤差の解析は、標準的な非パラメトリック回帰とガウシアンノイズの下で、深層ネットがミニマックスレート n^{-2s/(2s+d)} を多項式対数因子付きで達成できることを示す。これは線形推定量では達成不可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。