[논문 리뷰] A Function Space View of Bounded Norm Infinite Width ReLU Nets: The Multivariate Case
이 논문은 가중치 크기가 한정된 상태에서 무한 너비의 이층 ReLU 네트워크로 다변수 함수를 구현하기 위한 표현 비용(노름)을, Radon 변환 및 고차 라플라시안과 연결된 명시적 R-노름을 통해 규정한다.
A key element of understanding the efficacy of overparameterized neural networks is characterizing how they represent functions as the number of weights in the network approaches infinity. In this paper, we characterize the norm required to realize a function $f:\\mathbb{R}^d\ ightarrow\\mathbb{R}$ as a single hidden-layer ReLU network with an unbounded number of units (infinite width), but where the Euclidean norm of the weights is bounded, including precisely characterizing which functions can be realized with finite norm. This was settled for univariate univariate functions in Savarese et al. (2019), where it was shown that the required norm is determined by the L1-norm of the second derivative of the function. We extend the characterization to multivariate functions (i.e., networks with d input units), relating the required norm to the L1-norm of the Radon transform of a (d+1)/2-power Laplacian of the function. This characterization allows us to show that all functions in Sobolev spaces $W^{s,1}(\\mathbb{R})$, $s\\geq d+1$, can be represented with bounded norm, to calculate the required norm for several specific functions, and to obtain a depth separation result. These results have important implications for understanding generalization performance and the distinction between neural networks and more traditional kernel learning.
연구 동기 및 목표
- 네트워크 너비가 무한하지만 가중치 노름이 한정된 경우의 함수 표현에 대한 이해를 고무한다.
- 무한 너비 ReLU 네트워크가 구현하는 다변수 함수의 표현 비용을 규정한다.
- 그 비용을 Radon 변환과 고차 라플라시안 연산과 연관시킨다.
- 어떤 Sobolev 공간들이 유한한 비용을 산출하는지 보이고 구체적 예를 제시한다.
- ReLU 네트워크에서 노름의 관점으로 깊이 분리를 입증한다.
제안 방법
- 정확한 유한 너비 네트워크 표현 하에서 가중치 노름의 최솟값으로 표현 비용 R(f)를 정의하고, 이를 무한 너비로 확장한다.
- 한계 비용 R̄(f)을 도입하고, 그것이 ReLU 구성요소에 대한 측도 기반 적분과 등가임을 보인다.
- Radon 변환과 (d+1)/2-라플라시안의 이중 형식화를 통해 정의된 R-노름을 사용하여 유한성의 특징을 규정한다.
- f를 듀얼 Radon 변환 및 반전 공식으로 Radon 변환과 연결하여 명시적 비용 식을 도출한다.
- 해석을 단순화하기 위해 절댓값 단위와 선형 부분으로 분해를 활용하여 R1(f) 결과를 얻는다.
- R-노름의 경계 및 성질(스케일링, 불변성, 무한대에서의 기울기 역할)을 제공한다.
실험 결과
연구 질문
- RQ1다변수 함수 f를 무한 너비의 이층 ReLU 네트워크로 구현하는 데 필요한 정확한 표현 비용(노름)은 얼마인가?
- RQ2이 비용을 Radon 변환 기법과 고차 라플라시안으로 표현하고 계산할 수 있는가?
- RQ3다변수 함수에 대해 어떤 함수 공간(예: Sobolev 공간)이 유한한 표현 비용을 보장하는가?
- RQ4깊이(레이어 수)가 늘어날 때 노름 기반 표현 비용에 어떤 영향이 있으며, 노름 측면에서 깊이 분리가 있는가?
- RQ5R-노름의 주요 속성과 커널 방법 및 RKHS 노름과의 관계는 무엇인가?
주요 결과
- W^{d+1,1}(R^d)의 모든 충분히 매끄러운 함수는 유한한 표현 비용을 가진다.
- 비용은 f의 (d+1)/2-제곱 라플라시안의 Radon 변환의 L1-노름과 R-노름을 통해 연결된다.
- 유한한 지지의 반경을 가진 방사형 버블은 유한한 표현 비용을 가지지만, 반경 ε인 샤프한 버블의 경우 비용은 1/ε로 증가한다.
- 차원 d>1에서, 지지가 한정된 일반적인 조각별 선형 함수는 무한한 표현 비용을 가질 수 있다.
- 깊이 분리가 존재한다: 2D 함수는 경계-노름 깊이-3 ReLU 네트워크로 표현되지만, 어떤 깊이-2 경계 노름 네트워크로는 표현할 수 없다.
- R-노름은 함수의 표현 비용(overline{R}_1(f) = ||f||_R)과 같고, overline{R}(f)의 유한성은 ||f||_R의 유한성과 연결된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.