QUICK REVIEW

[논문 리뷰] On Approximation Capabilities of ReLU Activation and Softmax Output Layer in Neural Networks

Behnam Asadi, Hui Jiang|arXiv (Cornell University)|2020. 02. 10.

Neural Networks and Applications참고 문헌 9인용 수 19

한 줄 요약

이 논문은 ReLU 활성화 함수와 소프트맥스 출력층을 신경망에서 사용하는 데 대한 이론적 기반을 확립한다. 유한한 은닉층을 가진 단일 은닉층 피드포워드 네트워크가 충분히 크다면, ReLU를 사용하여 $L^1$ 공간 내의 어떤 함수도 근사할 수 있음을 증명하며, 소프트맥스를 사용하여 상호 배타적인 클래스 레이블을 나타내는 지시 함수(indicator function)도 $L^1$ 공간에서 근사할 수 있음을 보여준다. 이러한 결과는 현대 딥러닝에서 분류 작업을 위한 이러한 구성 요소가 널리 사용되는 것을 정당화한다.

ABSTRACT

In this paper, we have extended the well-established universal approximator theory to neural networks that use the unbounded ReLU activation function and a nonlinear softmax output layer. We have proved that a sufficiently large neural network using the ReLU activation function can approximate any function in $L^1$ up to any arbitrary precision. Moreover, our theoretical results have shown that a large enough neural network using a nonlinear softmax output layer can also approximate any indicator function in $L^1$, which is equivalent to mutually-exclusive class labels in any realistic multiple-class pattern classification problems. To the best of our knowledge, this work is the first theoretical justification for using the softmax output layers in neural networks for pattern classification.

연구 동기 및 목표

비유계 ReLU 활성화 함수를 사용하는 신경망으로 보편 근사 이론을 확장하기 위해.
다중 클래스 패턴 분류에서 비선형 소프트맥스 출력층을 사용하는 것의 이론적 정당성을 제시하기 위해.
충분히 큰 네트워크가 ReLU를 사용하여 $L^1$ 함수를 임의의 정밀도로 근사할 수 있음을 보여주기 위해.
충분히 큰 네트워크가 소프트맥스를 사용하여 $L^1$ 공간 내의 어떤 지시 함수도 근사할 수 있음을 보여주기 위해, 이는 상호 배타적인 클래스 레이블과 동치이다.
현대 딥러닝 아키텍처에서 ReLU와 소프트맥스의 경험적 성공에 대한 이론적 근거를 제공하기 위해.

제안 방법

모든 함수가 $L^1(I_d)$에 속하는 경우, 단일 은닉층과 충분한 너비를 가진 ReLU 기반 네트워크로 근사 가능함을 증명하였다.
목표 함수를 ReLU 근사에 적합한 형태로 변환하기 위해 변환 $f'_i(\mathbf{x}) = \frac{2m}{\epsilon}(f_i(\mathbf{x}) - 0.5)$를 구성하였다.
네트워크 출력과 목표 함수 사이의 $L^1$ 오차를 유계하기 위해 삼각 부등식을 사용하였다.
레마 1을 활용하여, $\|\text{softmax}(g(\mathbf{x}))_i - \text{softmax}(f'(\mathbf{x}))_i\|_1 < \epsilon/2$를 만족하는 ReLU 네트워크 $g(\mathbf{x})$의 존재를 보였다.
지역적으로 $f_i = 1$ 이거나 $f_i = 0$ 인 영역으로 도메인을 분할하여 지시 함수에 대한 소프트맥스 함수의 행동을 분석하였다.
양수 $x$에 대해 $\exp(-x) \leq 1/x$ 를 이용하여 소프트맥스 근사의 $L^1$ 오차를 $\epsilon/2$ 이내로 유계지었으며, 이를 통해 증명을 완성하였다.

실험 결과

연구 질문

RQ1ReLU 활성화 함수를 사용하는 신경망이 $L^1$ 공간 내의 어떤 함수라도 근사할 수 있는가?
RQ2소프트맥스 출력층을 사용하는 신경망이 $L^1$ 공간 내의 어떤 지시 함수라도 근사할 수 있는가?
RQ3단일 은닉층 네트워크에서 ReLU와 소프트맥스를 함께 사용할 경우 보편 근사 성질이 유지되는가?
RQ4서로 배타적인 레이블을 가진 현실적인 다중 클래스 분류 문제에 대해 ReLU와 소프트맥스의 이론적 정당성이 유지되는가?
RQ5충분히 큰 네트워크를 사용하면 근사 오차를 임의로 0에 가깝게 줄일 수 있는가?

주요 결과

충분히 큰 ReLU 활성화 함수를 사용하는 신경망은 $L^1(I_d)$ 내의 어떤 함수라도 임의의 정밀도로 근사할 수 있다.
네트워크 너비를 증가시킴으로써 ReLU 네트워크의 근사 오차를 $\epsilon > 0$ 이하로 줄일 수 있다.
충분히 큰 소프트맥스 출력층을 가진 네트워크는 $L^1(I_d)$ 내의 어떤 지시 함수라도 근사할 수 있으며, 이는 분류 작업에서 상호 배타적인 클래스 레이블에 해당한다.
변환과 지수 감쇠 분석을 통해 소프트맥스 출력과 목표 지시 함수 사이의 $L^1$ 오차는 $\epsilon/2$ 이내로 유계지어진다.
은닉층에서 사용하는 활성화 함수에 관계없이, 은닉층이 변환된 함수를 근사할 수 있다면 소프트맥스 근사에 대한 이론적 결과는 성립한다.
증명을 통해 분류 작업에서 소프트맥스의 사용이 이론적으로 정당화됨을 입증하였으며, 이는 그 광범위한 사용에 대한 첫 이론적 기반을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.