QUICK REVIEW

[論文レビュー] On Approximation Capabilities of ReLU Activation and Softmax Output Layer in Neural Networks

Behnam Asadi, Hui Jiang|arXiv (Cornell University)|Feb 10, 2020

Neural Networks and Applications参考文献 9被引用数 19

ひとこと要約

この論文は、ReLU活性化関数とソフトマックス出力層をニューラルネットワークで使用する理論的基盤を確立している。具体的には、十分に大きな1層の隠れ層を備えたフィードフォワードネットワークが、ReLUを用いて任意の関数を$L^1$空間で近似可能であり、ソフトマックスを用いて任意の指示関数（互いに排他的なクラスラベルを表す）を$L^1$空間で近似可能であることを証明している。これらの結果は、分類タスクにおける現代のディープラーニングにおけるこれらのコンponentsの広範な使用を正当化するものである。

ABSTRACT

In this paper, we have extended the well-established universal approximator theory to neural networks that use the unbounded ReLU activation function and a nonlinear softmax output layer. We have proved that a sufficiently large neural network using the ReLU activation function can approximate any function in $L^1$ up to any arbitrary precision. Moreover, our theoretical results have shown that a large enough neural network using a nonlinear softmax output layer can also approximate any indicator function in $L^1$, which is equivalent to mutually-exclusive class labels in any realistic multiple-class pattern classification problems. To the best of our knowledge, this work is the first theoretical justification for using the softmax output layers in neural networks for pattern classification.

研究の動機と目的

非有界なReLU活性化関数を用いたニューラルネットワークへのユニバーサル近似理論の拡張を目的とする。
多クラスパターン分類における非線形なソフトマックス出力層の使用を理論的に正当化することを目的とする。
十分に大きなネットワークにReLUを用いることで、任意の$L^1$関数を任意の精度で近似可能であることを示すこと。
十分に大きなネットワークにソフトマックスを用いることで、任意の指示関数を$L^1$空間で近似可能であり、これは互いに排他的なクラスラベルに相当することを示すこと。
現代のディープラーニングアーキテクチャにおけるReLUとソフトマックスの経験的成功の理論的根拠を提供すること。

提案手法

任意の関数が$L^1(I_d)$に属する場合、1つの隠れ層と十分な幅を持つReLUベースのネットワークによって近似可能であることを証明した。
目的関数をReLU近似に適した形に変換するための変換$f'_i(\mathbf{x}) = \frac{2m}{\epsilon}(f_i(\mathbf{x}) - 0.5)$を構築した。
三角不等式を用いて、ネットワーク出力と目的関数間の$L^1$誤差を評価した。
補題1を活用し、$\|\text{softmax}(g(\mathbf{x}))_i - \text{softmax}(f'(\mathbf{x}))_i\|_1 < \epsilon/2$を満たすReLUネットワーク$g(\mathbf{x})$の存在を示した。
領域を$f_i = 1$ および $f_i = 0$ の領域に分割することで、指示関数におけるソフトマックス関数の挙動を分析した。
不等式$\exp(-x) \leq 1/x$（$x > 0$）を用いて、ソフトマックス近似の$L^1$誤差を$\epsilon/2$以下に抑え、証明を完了した。

実験結果

リサーチクエスチョン

RQ1ReLU活性化関数を用いたニューラルネットワークは、$L^1$空間内の任意の関数を近似可能か？
RQ2ソフトマックス出力層を用いたニューラルネットワークは、$L^1$空間内の任意の指示関数を近似可能か？
RQ3ReLUとソフトマックスを組み合わせた1層の隠れ層ネットワークにおいて、ユニバーサル近似性質が保持されるか？
RQ4相互に排他的なラベルを持つ現実的な多クラス分類問題において、ReLUとソフトマックスの理論的正当性は成立するか？
RQ5十分に大きなネットワークを用いることで、近似誤差を任意に0に近づけることができるか？

主な発見

十分に大きなReLU活性化関数を用いたニューラルネットワークは、任意の関数を$L^1(I_d)$において任意の精度で近似可能である。
ネットワークの幅を増加させることで、ReLUネットワークの近似誤差を任意の$\epsilon > 0$未満に小さくできる。
十分に大きなソフトマックス出力層を備えたネットワークは、任意の指示関数を$L^1(I_d)$において近似可能であり、これは分類タスクにおける互いに排他的なクラスラベルに相当する。
変換と指数関数的減衰解析を用いることで、ソフトマックス出力と目的の指示関数との$L^1$誤差が$\epsilon/2$未満に抑えられることを示した。
ソフトマックス近似の理論的結果は、隠れ層で変換関数を近似できる限り、隠れ層で使用される活性化関数に依存しない。
証明により、分類タスクにおけるソフトマックスの使用が理論的に正当化されることを確立した。これは、その広範な使用を支える初の理論的基盤を提供するものである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。