[논문 리뷰] Approximating Continuous Functions by ReLU Nets of Minimal Width
논문은 ReLU 네트가 d_in 변수의 임의의 연속 함수를 근사하기 위해 필요한 최소 은닉층 폭을 결정하며 임계값이 d_in+1임을 보이고 상한으로 d_in+d_out를 제시한다.
This article concerns the expressive power of depth in deep feed-forward neural nets with ReLU activations. Specifically, we answer the following question: for a fixed $d_{in}\geq 1,$ what is the minimal width $w$ so that neural nets with ReLU activations, input dimension $d_{in}$, hidden layer widths at most $w,$ and arbitrary depth can approximate any continuous, real-valued function of $d_{in}$ variables arbitrarily well? It turns out that this minimal width is exactly equal to $d_{in}+1.$ That is, if all the hidden layer widths are bounded by $d_{in}$, then even in the infinite depth limit, ReLU nets can only express a very limited class of functions, and, on the other hand, any continuous function on the $d_{in}$-dimensional unit cube can be approximated to arbitrary precision by ReLU nets in which all hidden layers have width exactly $d_{in}+1.$ Our construction in fact shows that any continuous function $f:[0,1]^{d_{in}} o\mathbb R^{d_{out}}$ can be approximated by a net of width $d_{in}+d_{out}$. We obtain quantitative depth estimates for such an approximation in terms of the modulus of continuity of $f$.
연구 동기 및 목표
- ReLU nets가 f:[0,1]^{d_in} -> R^{d_out}의 임의의 연속 함수를 근사하기 위한 최소 은닉층 폭 w_min(d_in, d_out) 결정
- 은닉층 폭이 최대 d_in인 경우 깊이에 관계없이 네트가 표현력에 제한이 있음을 보임
- 임의의 연속 함수를 근사하는 폭 d_in+d_out를 달성하는 상한 구성을 제공
- 폭- d_in+d_out 구성에 대해 f의 연속성의 모듈러스 ω_f에 따른 깊이 추정치를 제시
- 가능한 최소 폭을 보장하는 일치하는 하한을 확립하여 폭이 최소 d_in+1이 universal approximation에 필요함을 보임
제안 방법
- Skip 연결이 없는 ReLU nets에 대해 w_min(d_in,d_out) 임계값 도입
- 콤팩트 집합에서 임의의 연속 함수를 재현하는 최대-최소 문자열 구성을 통해 w_min(d_in,d_out) ≤ d_in+d_out의 상한 증명
- 모든 연속 함수 f는 모듈러스 ω_f의 크기에 따라 깊이에 의존하는 d_in+d_out 너비의 ReLU 넷으로 콤팩트 K에서 ε-근사를 얻을 수 있음을 보임
- (i) ReLU nets의 최대-최소 문자열 구현(폭 d_in+d_out, 명제 2) 및 (ii) 제어된 길이 L = (O(diam(K))/ω_f^{-1}(ε))^{d_in+1}로의 근사를 통한 최대-최소 문자열에 의한 근사(제3 명제) 활용
- ε-근사를 더 큰 정의역으로 확장하고 깊이 한계를 도출하기 위한 기하학적 모서리 절단 도구(Lemma 5) 개발
- 아치-연결 없이도 width-d_in 네트워크가 모든 연속 함수를 근사할 수 없다는 positive η를 도출하는 하한 증명(즉, w_min(d_in,·) ≥ d_in+1)을 제시
실험 결과
연구 질문
- RQ1ReLU nets가 모든 연속 함수 f:[0,1]^{d_in} → R^{d_out}를 ε-근사하게 해주는 최소 은닉층 폭 w_min(d_in, d_out)은 무엇인가?
- RQ2고정 폭의 은닉층에서 universal approximation을 위한 최소 하한으로서 d_in+1이 적합한가?
- RQ3[0,1]^{d_in}에서 모든 연속 함수를 폭 정확히 d_in+d_out로 근사할 수 있으며 필요한 깊이는 무엇인가?
- RQ4폭이 d_in+d_out로 제한될 때 f의 연속성 모듈러스가 근사에 필요한 깊이에 어떤 영향을 미치는가?
- RQ5Skip 연결이 없을 때 폭이 d_in+1 미만인 경우 universal approximation를 달성하지 못하는 어떤 장애물이 있는가?
주요 결과
- ReLU nets의 universal approximation을 위한 최소 폭은 정확히 d_in+1이며(하한) 이를 d_in+d_out까지의 폭로 최대 한계로 달성할 수 있다(상한)
- 임의의 연속 함수 f:[0,1]^{d_in}→R^{d_out}는 폭이 d_in+d_out로 상한을 가지며 ε-근사는 ω_f의 모듈러스에 따라 깊이가 달라지는 ReLU nets로 가능하다
- 상한 구성이 최대-최소 문자열 표현과 깊이 한계가 (diam(K)/ω_f^{-1}(ε))^{d_in+1}로 확장되는 것에 의존한다
- 폭 d_in은 universal approximation에 충분하지 않다는 밀도 판단(d_in 폭의 네트워크로는 모든 연속 함수를 근사할 수 없다는 양의 η 도출)
- 설정상 Skip 연결은 허용되지 않으며 이를 허용하면 네트워크가 충분한 깊이를 갖추면 폭이 1인 네트워크도 어떤 연속 함수든 근사할 수 있어 폭 한계를 자의적으로 완화한다
- 하한은 레벨세트 기하를 가진 함수를 구성하여 width-d_in 네트워크로 universal approximation을 달성할 수 없음을 보이며 ReLU nets의 구조적 특성 및 볼록/선형 조각을 활용한 증거를 제시
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.