QUICK REVIEW

[논문 리뷰] A Universal Approximation Theorem of Deep Neural Networks for Expressing Distributions.

Yulong Lu, Jianfeng Lu|arXiv (Cornell University)|2020. 04. 19.

Adversarial Robustness in Machine Learning참고 문헌 44인용 수 18

한 줄 요약

이 논문은 확률 분포 생성의 맥락에서 깊은 신경망에 대한 일반적인 근사 정리(universal approximation theorem)를 수립한다: 미세한 조건 하에, ReLU 네트워크 $g$를 구성함으로써 $\nabla g$에 의한 소스 측도 $p_z$ 의 푸시포워드(push-forward)가 임의의 목표 분포 $\pi$ 를 임의로 가까이 근사할 수 있다. 근사 오차는 1-와서르스탄, MMD, KSD 불일치도(discrepancy)의 관점에서 유계되며, MMD와 KSD의 경우 네트워크 크기는 차원 $d$ 에 대해 다항식적으로 증가하지만, 1-와서르스탄의 경우 지수적으로 증가한다.

ABSTRACT

This paper studies the universal approximation property of deep neural networks for representing probability distributions. Given a target distribution $\pi$ and a source distribution $p_z$ both defined on $\mathbb{R}^d$, we prove under some assumptions that there exists a deep neural network $g:\mathbb{R}^d ightarrow \mathbb{R}$ with ReLU activation such that the push-forward measure $( abla g)_\# p_z$ of $p_z$ under the map $ abla g$ is arbitrarily close to the target measure $\pi$. The closeness are measured by three classes of integral probability metrics between probability distributions: $1$-Wasserstein distance, maximum mean distance (MMD) and kernelized Stein discrepancy (KSD). We prove upper bounds for the size (width and depth) of the deep neural network in terms of the dimension $d$ and the approximation error $\varepsilon$ with respect to the three discrepancies. In particular, the size of neural network can grow exponentially in $d$ when $1$-Wasserstein distance is used as the discrepancy, whereas for both MMD and KSD the size of neural network only depends on $d$ at most polynomially. Our proof relies on convergence estimates of empirical measures under aforementioned discrepancies and semi-discrete optimal transport.

연구 동기 및 목표

임의의 확률 분포를 표현하는 데 있어 깊은 신경망의 일반적 근사 성질을 수립하는 것.
다양한 적분 확률 거리(metric) 하에서 목표 분포 $\pi$ 를 근사하기 위해 필요한 ReLU 네트워크의 크기(너비 및 깊이)를 분석하는 것.
다양한 불일치도 측정법에 따라 네트워크 크기가 차원 $d$ 와 근사 오차 $\varepsilon$ 에 어떻게 의존하는지 비교하는 것.
MMD와 KSD의 경우 네트워크 크기가 $d$ 에 대해 최대 다항식적으로 증가하는 반면, 1-와서르스탄 거리의 경우 지수적으로 증가함을 보이는 것.

제안 방법

소스 분포 $p_z$ 를 $\nabla g$ 에 의해 푸시포워드하는 깊은 ReLU 신경망 $g: \mathbb{R}^d \to \mathbb{R}$ 를 구성하여 목표 분포 $\pi$ 를 근사하는 것.
1-와서르스탄, MMD, KSD 하에서 경험 측도의 수렴 추정치를 사용하여 근사 오차를 유계하는 것.
반연속적 최적 운반 이론을 활용하여 $p_z$ 를 $\pi$ 쪽으로 이동시키는 기울기 맵 $\nabla g$ 를 구성하는 것.
각 불일치도 측정법에 대해 차원 $d$ 와 원하는 근사 오차 $\varepsilon$ 를 변수로 하여 네트워크의 너비와 깊이에 대한 상한을 유도하는 것.
경험 측도 수렴에 관한 이론적 결과를 적용하여 $ (\nabla g)_\# p_z $ 와 $\pi$ 사이의 불일치도를 제어하는 것.
MMD와 KSD의 경우 네트워크 크기가 $d$ 에 대해 다항식적으로 증가함을 보이며, 1-와서르스탄 거리의 경우 지수적으로 증가함을 증명하는 것.

실험 결과

연구 질문

RQ11-와서르스탄 거리의 경우, 깊은 ReLU 신경망이 소스 분포 $p_z$ 를 $\nabla g$ 에 의해 푸시포워드함으로써 임의의 목표 확률 분포 $\pi$ 를 근사할 수 있는가?
RQ21-와서르스탄 거리의 경우, 근사 오차 $\varepsilon$ 와 차원 $d$ 에 따라 필요한 네트워크 크기가 어떻게 변화하는가?
RQ3MMD 또는 KSD 를 불일치도 측정법으로 사용할 경우, 네트워크 크기가 $d$ 에 대해 다항식적으로 증가하는가, 아니면 지수적으로 증가하는가?
RQ4적분 확률 거리의 관점에서 근사 오차에 대해 어떤 이론적 보장을 도출할 수 있는가?

주요 결과

1-와서르스탄 거리의 경우, 주어진 근사 오차 $\varepsilon$ 에 대해 필요한 깊은 신경망의 크기가 차원 $d$ 에 대해 지수적으로 증가한다.
MMD와 KSD의 경우, 네트워크 크기가 $d$ 에 대해 최대 다항식적으로 의존하므로, 1-와서르스탄 거리의 경우보다 훨씬 유리한 스케일링 특성을 보인다.
논문은 $ (\nabla g)_\# p_z $ 가 세 가지 불일치도 측정법 모두에서 $\pi$ 를 $\varepsilon$ 이내로 근사할 수 있는 ReLU 네트워크 $g$ 가 존재함을 증명한다.
이 구성은 경험 측도의 수렴 추정치와 반연속적 최적 운반 이론에 기반하며, 이는 근사 오차를 유계하는 데 사용된다.
이론적 프레임워크는 각 불일치도 측정법에 대해 $d$ 와 $\varepsilon$ 를 변수로 하여 네트워크의 너비와 깊이에 대한 명시적 상한을 제공한다.
결과적으로, 분포 생성의 맥락에서 깊은 네트워크에 대한 일반적 근사 성질을 수립하였으며, 불일치도 측정법의 선택에 따라 다른 스케일링 행동을 보임을 밝혔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.