[논문 리뷰] Why Deep Neural Networks for Function Approximation?
본 논문은 조각별로 매끄러운 함수의 큰 클래스에 대해, 주어진 근사 정확도를 달성하기 위해 깊은 신경망이 얕은 신경망보다 지수적으로 더 적은 뉴런을 필요로 한다.
Recently there has been much interest in understanding why deep neural networks are preferred to shallow networks. We show that, for a large class of piecewise smooth functions, the number of neurons needed by a shallow network to approximate a function is exponentially larger than the corresponding number of neurons needed by a deep network for a given degree of function approximation. First, we consider univariate functions on a bounded interval and require a neural network to achieve an approximation error of $\varepsilon$ uniformly over the interval. We show that shallow networks (i.e., networks whose depth does not depend on $\varepsilon$) require $Ω( ext{poly}(1/\varepsilon))$ neurons while deep networks (i.e., networks whose depth grows with $1/\varepsilon$) require $\mathcal{O}( ext{polylog}(1/\varepsilon))$ neurons. We then extend these results to certain classes of important multivariate functions. Our results are derived for neural networks which use a combination of rectifier linear units (ReLUs) and binary step units, two of the most popular type of activation functions. Our analysis builds on a simple observation: the multiplication of two bits can be represented by a ReLU.
연구 동기 및 목표
- 신경망에서 깊이가 함수 근사에 어떻게 도움을 주는지 동기를 제시한다.
- 함수 클래스에 걸쳐 epsilon-근사에 필요한 네트워크 크기의 상한과 하한을 제시한다.
- ReLU 및 이진 계단 활성화를 사용하여 단변수 및 다변수 함수에 대해 깊이와 너비를 비교한다.
제안 방법
- 신경망에 의한 함수 클래스의 L-∞(균일) 근사 한계를 제공한다.
- ReLU 및 BSU를 통해 바이너리 확장과 다항식 평가를 구현하는 구성을 사용한다.
- 상한을 유도한다: O(log(1/epsilon)) 계층의 심층 네트워크와 polylog(1/epsilon) 개의 뉴런; 얕은 네트워크는 poly(1/epsilon) 개의 뉴런이 필요하다.
- 강컨벡 함수에 대한 하한을 증명하여 N >= log(1/epsilon)가 필요함을 보인다.
실험 결과
연구 질문
- RQ1주어진 함수의 ε-근사를 달성하기에 충분한 깊이와 네트워크 크기는 무엇인가?
- RQ2고정된 깊이에 대해 ε-근사를 달성하기 위해 필요한 최소 네트워크 크기는 무엇인가?
- RQ3ReLU 및 이진 계단 활성화 하에서 단변수 및 다변수 함수에 대해 깊이와 크기는 어떻게 상호 보완적인가?
- RQ4유도된 상한이 조각별로 매끄럽고 강하게 볼록한 함수를 포함한 넓은 함수 클래스에 대해 타이트한가?
- RQ5함수의 합성, 곱, 선형 조합에 대한 결과는 어떻게 확장되는가?
주요 결과
- 얕은 네트워크는 경계된 구간에서 조각별 매끄러운 단변수 함수의 ε-근사를 달성하기 위해 Omega(poly(1/epsilon)) 개의 뉴런이 필요하다.
- 깊이가 Theta(log(1/epsilon))인 심층 네트워크는 같은 ε-근사를 달성하기 위해 O(polylog(1/epsilon)) 개의 뉴런이 필요하다.
- 미분 가능하고 강하게 볼록한 함수의 경우, 모든 다층 네트워크는 ε-근사를 달성하기 위해 Omega(log(1/epsilon)) 개의 뉴런이 필요하다.
- 레깅된 결과는 다항로그(1/epsilon) 상한이 매끄러운 단변수 또는 다변수 함수의 덧셈, 곱셈 및 합성에도 확장된다.
- 하한은 제시된 가정 하에서 깊이에 따른 이점이 타이트함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.