QUICK REVIEW

[논문 리뷰] Why Deep Neural Networks for Function Approximation?

Shiyu Liang, R. Srikant|arXiv (Cornell University)|2016. 10. 13.

Neural Networks and Applications인용 수 152

한 줄 요약

본 논문은 조각별로 매끄러운 함수의 큰 클래스에 대해, 주어진 근사 정확도를 달성하기 위해 깊은 신경망이 얕은 신경망보다 지수적으로 더 적은 뉴런을 필요로 한다.

ABSTRACT

Recently there has been much interest in understanding why deep neural networks are preferred to shallow networks. We show that, for a large class of piecewise smooth functions, the number of neurons needed by a shallow network to approximate a function is exponentially larger than the corresponding number of neurons needed by a deep network for a given degree of function approximation. First, we consider univariate functions on a bounded interval and require a neural network to achieve an approximation error of $\varepsilon$ uniformly over the interval. We show that shallow networks (i.e., networks whose depth does not depend on $\varepsilon$) require $Ω( ext{poly}(1/\varepsilon))$ neurons while deep networks (i.e., networks whose depth grows with $1/\varepsilon$) require $\mathcal{O}( ext{polylog}(1/\varepsilon))$ neurons. We then extend these results to certain classes of important multivariate functions. Our results are derived for neural networks which use a combination of rectifier linear units (ReLUs) and binary step units, two of the most popular type of activation functions. Our analysis builds on a simple observation: the multiplication of two bits can be represented by a ReLU.

연구 동기 및 목표

신경망에서 깊이가 함수 근사에 어떻게 도움을 주는지 동기를 제시한다.
함수 클래스에 걸쳐 epsilon-근사에 필요한 네트워크 크기의 상한과 하한을 제시한다.
ReLU 및 이진 계단 활성화를 사용하여 단변수 및 다변수 함수에 대해 깊이와 너비를 비교한다.

제안 방법

신경망에 의한 함수 클래스의 L-∞(균일) 근사 한계를 제공한다.
ReLU 및 BSU를 통해 바이너리 확장과 다항식 평가를 구현하는 구성을 사용한다.
상한을 유도한다: O(log(1/epsilon)) 계층의 심층 네트워크와 polylog(1/epsilon) 개의 뉴런; 얕은 네트워크는 poly(1/epsilon) 개의 뉴런이 필요하다.
강컨벡 함수에 대한 하한을 증명하여 N >= log(1/epsilon)가 필요함을 보인다.

실험 결과

연구 질문

RQ1주어진 함수의 ε-근사를 달성하기에 충분한 깊이와 네트워크 크기는 무엇인가?
RQ2고정된 깊이에 대해 ε-근사를 달성하기 위해 필요한 최소 네트워크 크기는 무엇인가?
RQ3ReLU 및 이진 계단 활성화 하에서 단변수 및 다변수 함수에 대해 깊이와 크기는 어떻게 상호 보완적인가?
RQ4유도된 상한이 조각별로 매끄럽고 강하게 볼록한 함수를 포함한 넓은 함수 클래스에 대해 타이트한가?
RQ5함수의 합성, 곱, 선형 조합에 대한 결과는 어떻게 확장되는가?

주요 결과

얕은 네트워크는 경계된 구간에서 조각별 매끄러운 단변수 함수의 ε-근사를 달성하기 위해 Omega(poly(1/epsilon)) 개의 뉴런이 필요하다.
깊이가 Theta(log(1/epsilon))인 심층 네트워크는 같은 ε-근사를 달성하기 위해 O(polylog(1/epsilon)) 개의 뉴런이 필요하다.
미분 가능하고 강하게 볼록한 함수의 경우, 모든 다층 네트워크는 ε-근사를 달성하기 위해 Omega(log(1/epsilon)) 개의 뉴런이 필요하다.
레깅된 결과는 다항로그(1/epsilon) 상한이 매끄러운 단변수 또는 다변수 함수의 덧셈, 곱셈 및 합성에도 확장된다.
하한은 제시된 가정 하에서 깊이에 따른 이점이 타이트함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.