[논문 리뷰] The Power of Depth for Feedforward Neural Networks
이 논문은 ℝᵈ 상의 단순한 반경함수를 3층 피드포워드 신경망(작은 너비)으로 계산할 수 있지만, 입력 차원 d에 대해 너비가 지수적으로 증가하지 않는 한 어떤 2층 네트워크로도 그 정확도가 일정 수준 이하로 근사될 수 없다는 것을 보여준다. 이 결과는 모든 표준 활성화 함수(ReLU, 시그모이드, 임계값)에 대해 성립하며, 완전히 연결된 피드포워드 네트워크에서 깊이가 너비보다 표현 능력 면에서 지수적 우위를 제공한다는 것을 공식적으로 입증한다.
We show that there is a simple (approximately radial) function on $ eals^d$, expressible by a small 3-layer feedforward neural networks, which cannot be approximated by any 2-layer network, to more than a certain constant accuracy, unless its width is exponential in the dimension. The result holds for virtually all known activation functions, including rectified linear units, sigmoids and thresholds, and formally demonstrates that depth -- even if increased by 1 -- can be exponentially more valuable than width for standard feedforward neural networks. Moreover, compared to related results in the context of Boolean functions, our result requires fewer assumptions, and the proof techniques and construction are very different.
연구 동기 및 목표
- 피드포워드 신경망의 표현 능력에서 깊이가 너비보다 본질적으로 우월한가를 조사한다.
- 3층 네트워크가 작은 너비로 계산할 수 있는 함수들이 지수적으로 넓은 2층 네트워크가 아니면 근사될 수 없음을 공식적으로 입증한다.
- 제한된 너비와 깊이 조건 하에서 얕은 네트워크와 깊은 네트워크의 표현 능력을 분석한다.
- 표준 활성화 함수에 대해 깊이가 단 한 층 뿐이어도 너비보다 지수적 우위를 제공할 수 있음을 보여준다.
- ReLU, 시그모이드, 임계값 함수를 포함한 광범위한 활성화 함수 클래스에 적용 가능한 일반적 결과를 제공한다.
제안 방법
- 1-립시츠 조건을 만족하고 컴팩트하게 지지된 반경함수 f(‖x‖)를 구성한다. 이 함수는 부호가 붙고 스케일링 및 이동된 ReLU 유사 뉴런들의 합으로 표현된다.
- 이중 단계 근사 기법을 사용한다: 먼저 유계 너비를 가진 2층 네트워크로 단변수 함수를 근사하고, 이를 d차원 반경함수로 확장한다.
- 커널 기반 구성법을 활용하여 g(x) = ∑ᵢ εᵢ gᵢ(‖x‖) 형태의 함수를 생성한다. 여기서 각 gᵢ는 3층 네트워크이며, 합이 2층 네트워크로 근사될 수 없도록 보장한다.
- 2층 네트워크의 보편 근사 성질(가정 1)을 적용하여, 구성된 함수를 근사하는 데 있어 어떤 2층 네트워크도 d에 대해 지수적으로 증가하는 너비를 가져야 함을 보여준다.
- L₂(μ) 공간에서 삼각 부등식을 사용해 두 단계의 근사 오차를 통합한다: 하나는 부호가 붙은 함수들의 합에 대한 오차이고, 다른 하나는 반경함수 근사에 대한 오차이다.
- 어떤 2층 네트워크와 구성된 3층 함수 사이의 L₂(μ) 거리에 하한을 도출하여, 너비가 d에 대해 지수적으로 증가하지 않는 한 어떤 2층 네트워크도 이를 일정 오차 이내로 근사할 수 없음을 증명한다.
실험 결과
연구 질문
- RQ13층 피드포워드 신경망은 임의로 큰 너비를 가진 2층 네트워크로도 근사될 수 없는 함수를 계산할 수 있는가?
- RQ23층 네트워크로 작은 너비로 표현 가능한 함수를 근사하기 위해 2층 네트워크가 필요한 최소 너비는 얼마인가?
- RQ3깊이가 피드포워드 네트워크의 표현 능력에서 너비보다 지수적 우위를 제공하는가?
- RQ4이 깊이의 우위는 ReLU, 시그모이드, 임계값 함수를 포함한 모든 표준 활성화 함수에 대해 성립하는가?
- RQ5ℝᵈ 상의 반경함수를 구성하여, 그 3층 네트워크 표현이 지수적 너비 없이 2층 네트워크로는 증명적으로 근사될 수 없도록 할 수 있는가?
주요 결과
- ℝᵈ 상의 반경함수 f(‖x‖)가 존재하며, 이는 상수 너비(입력 차원 d에 독립적)의 3층 피드포워드 네트워크로 계산 가능하지만, 너비가 d에 대해 지수적으로 증가하지 않는 한 어떤 2층 네트워크로도 일정 오차 이내로 근사될 수 없다.
- 근사 오차에 대한 하한은 Assumption 1를 만족하는 모든 표준 활성화 함수(ReLU, 시그모이드, 임계값 함수 포함)에 대해 성립한다.
- 구성된 3층 함수를 근사하기 위해 필요한 2층 네트워크의 너비는 exp(Ω(d))로 증가하며, 이는 2층과 3층 네트워크 간의 너비에서 지수적 분리가 있음을 보여준다.
- 증명 과정에서 너비가 최대 C′cσ d¹⁹ᐟ⁴인 3층 네트워크로 표현 가능한 함수 g(x)를 구성한다. 여기서 cσ는 활성화 함수에 따라 변하는 상수이고, C′은 보편 상수이다.
- 어떤 2층 네트워크와 구성된 3층 함수 사이의 L₂(μ) 거리는 δ₁/2 > 0 이상으로 하한이 존재하므로, 너비가 지수적으로 증가하지 않는 한 어떤 2층 네트워크도 이 오차 이내로 근사할 수 없음을 증명한다.
- 활성화 함수에 대한 가정을 최소화하여, 단지 유계 도메인에서 단변수 리프시츠 함수에 대해 보편 근사 성질을 만족하면 된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.