[논문 리뷰] On the ability of neural nets to express distributions
이 논문은 함수의 푸리에 성질에 기반하여 $ n $개의 은닉층을 가진 딥 네ural 네트워크에 의해 함수를 근사할 수 있는 충분조건을 설정한다. 구성된 $ n $개의 바론 함수—푸리에 에너지가 유계인 함수—는 $ n+1 $-층 네트워크에 의해 근사 가능하며, 이는 워샤프스탄 거리 기준 워샤프스탄 거리 기준에서 딥 생성 모델의 표현 능력을 설명한다.
Deep neural nets have caused a revolution in many classification tasks. A related ongoing revolution -- also theoretically not understood -- concerns their ability to serve as generative models for complicated types of data such as images and texts. These models are trained using ideas like variational autoencoders and Generative Adversarial Networks. We take a first cut at explaining the expressivity of multilayer nets by giving a sufficient criterion for a function to be approximable by a neural network with $n$ hidden layers. A key ingredient is Barron's Theorem \cite{Barron1993}, which gives a Fourier criterion for approximability of a function by a neural network with 1 hidden layer. We show that a composition of $n$ functions which satisfy certain Fourier conditions ("Barron functions") can be approximated by a $n+1$-layer neural network. For probability distributions, this translates into a criterion for a probability distribution to be approximable in Wasserstein distance -- a natural metric on probability distributions -- by a neural network applied to a fixed base distribution (e.g., multivariate gaussian). Building up recent lower bound work, we also give an example function that shows that composition of Barron functions is more expressive than Barron functions alone.
연구 동기 및 목표
- 이미지와 텍스트와 같은 복잡한 데이터 분포를 생성하는 데 딥 네럴 네트워크가 효과적인 이유를 이해하기 위해.
- 얕은 아키텍처를 초월하여 딥 네트워크의 표현 능력에 대한 이론적 기반을 제공하기 위해.
- 푸리에 분석을 사용하여 $ n $개의 은닉층을 가진 딥 네트워크에 의해 함수를 근사할 수 있는 충분조건을 설정하기 위해.
- 바론 함수의 조합이 확률 분포 생성에서 딥 네트워크의 표현력과 어떻게 연결되는지 이해하기 위해.
- 바론 함수와 그 조합 간의 표현력 간의 엄격한 계층적 구조를 보여주며, 더 깊은 네트워크가 더 복잡한 분포를 모델링할 수 있음을 입증하기 위해.
제안 방법
- 단일 은닉층 네트워크로 함수를 근사할 수 있는 푸리에 기반 기준을 제공하는 바론의 정리 [Bar93]를 기초로 사용한다.
- 각 함수가 바론의 푸리에 조건을 만족하는 $ n $개의 함수 조합이 $ n+1 $-층 네트워크에 의해 근사 가능하다는 것을 보여줌으로써 바론의 결과를 딥 네트워크로 확장한다.
- 신경망이 생성하는 확률 분포의 근사 품질을 측정하기 위해 워샤프스탄 거리 $ W_2 $ 를 측정 척도로 사용한다.
- 특히 푸리에 지지가 컴act한 버블 함수 $ g $ 를 철저히 선택하여 바론 상수의 하한을 도출함으로써 표현력의 지수적 분리 효과를 입증하는 하한 기법을 도입한다.
- 임의의 확장을 피하기 위해 $ f $ 의 바론 상수를 $ ( abla f)g $ 의 푸리에 변환의 $ L^1 $-노름을 통해 이중성 원리를 적용하여 유계화한다.
- 적절한 조건 하에서 바론 함수로 증명된 고차원 함수 $ f(x) = f_1( orm{x}) $ 를 노름 제곱 함수와 일변수 함수로 분해한다.
실험 결과
연구 질문
- RQ1딥 네럴 네트워크는 얕은 네트워크보다 복잡한 확률 분포를 더 효율적으로 근사할 수 있는가?
- RQ2함수가 $ n $개의 은닉층을 가진 딥 네트워크에 의해 근사 가능하기 위한 충분조건은 무엇인가?
- RQ3바론 함수의 조합은 딥 네트워크의 표현력과 어떻게 관련되는가?
- RQ4$ n $개의 바론 함수 조합과 $ n+1 $개의 바론 함수 조합 간에 표현력에 엄격한 계층적 구조가 존재하는가?
- RQ5푸리에 기반 기준을 사용하여 깊은 네트워크와 얕은 네트워크의 표현 능력을 공식적으로 분리할 수 있는가?
주요 결과
- $ n $개의 바론 함수의 조합인 함수는 $ W_2 $ 워샤프스탄 거리 기준에서 $ n+1 $-층 신경망에 의해 근사 가능하다.
- 푸리에 지지가 컴팩트한 함수 $ g $ 를 사용한 이중 표현을 통해 바론 상수 $ f $ 의 하한을 유도할 수 있으며, 이는 지수적 하한을 가능하게 한다.
- $ n \neq 3 \bmod 4 $ 인 경우, 특정 매개변수를 가진 함수 $ f(x) = f_1( orm{x}) $ 는 바론 상수가 $ n $ 에 대해 지수적으로 증가할 수 있으며, 이는 높은 복잡성을 나타낸다.
- 함수 $ f(x) = f_1( orm{x}) $ 는 $ x \to \norm{x}^2 $ 과 $ y \to f_1(\norm{y}) $ 로 구성된 두 바론 함수의 조합임이 입증되었으며, 둘 다 다항식적으로 유계된 바론 상수를 가진다.
- 표현력의 분리가 입증되었다: 얕은 네트워크로 근사할 수 없는 지수적으로 큰 바론 상수를 가진 함수들이 존재하며, 이는 오직 두 개의 바론 함수 조합으로 구성된다.
- 이 결과는 깊은 네트워크가 얕은 네트워크보다 더 복잡한 분포를 모델링할 수 있음을 시사하며, 심지어 지수적으로 더 많은 파rameter를 가진 경우에도 깊이에 기인한 푸리에 유계 함수의 계층적 조합 덕분이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.