QUICK REVIEW

[논문 리뷰] A Universal Approximation Theorem of Deep Neural Networks for Expressing Probability Distributions

Yulong Lu, Jianfeng Lu|arXiv (Cornell University)|2020. 04. 19.

Generative Adversarial Networks and Image Synthesis참고 문헌 56인용 수 77

한 줄 요약

이 논문은 ReLU 심층 신경망이 1-Wasserstein, MMD 또는 Kernelized Stein Discrepancy 하에서 소스 분포를 대상으로 임의까지 잘 근사하도록 push-forward 할 수 있으며, 선택한 지표에 따라 명시적인 네트워크 크기 한계가 존재함을 보인다.

ABSTRACT

This paper studies the universal approximation property of deep neural networks for representing probability distributions. Given a target distribution $\\pi$ and a source distribution $p_z$ both defined on $\\mathbb{R}^d$, we prove under some assumptions that there exists a deep neural network $g:\\mathbb{R}^d\ ightarrow \\mathbb{R}$ with ReLU activation such that the push-forward measure $(\ abla g)_\\# p_z$ of $p_z$ under the map $\ abla g$ is arbitrarily close to the target measure $\\pi$. The closeness are measured by three classes of integral probability metrics between probability distributions: $1$-Wasserstein distance, maximum mean distance (MMD) and kernelized Stein discrepancy (KSD). We prove upper bounds for the size (width and depth) of the deep neural network in terms of the dimension $d$ and the approximation error $\\varepsilon$ with respect to the three discrepancies. In particular, the size of neural network can grow exponentially in $d$ when $1$-Wasserstein distance is used as the discrepancy, whereas for both MMD and KSD the size of neural network only depends on $d$ at most polynomially. Our proof relies on convergence estimates of empirical measures under aforementioned discrepancies and semi-discrete optimal transport.

연구 동기 및 목표

함수 근사를 넘어 확률 분포를 표현하기 위한 생성기로서의 신경망 연구를 동기화한다.
ReLU DNN이 네트워크 출력의 기울기에 의한 push-forward를 통해 소스 분포를 타깃 분포에 근사시키도록 매핑할 수 있음을 보인다.
세 가지 IPM 하에서 주어진 근사 정확도를 달성하기 위한 정량적 복잡도 한계(깊이/너비)를 제공한다.
경험적 측정 수렴과 반-이산 최적전송을 연결하여 명시적 신경망 기반 수송 맵을 구성한다.

제안 방법

IPM 하에서 p_z의 기울기가 π에 근접하도록 푸시시키는 신경망 기반 퍼텐셜 u를 구성한다.
실현 측정 P_n을 사용해 π를 근사하고 W1, MMD, 및 KSD에 대해 d_FD(P_n, π)를 경계한다.
세미-이산 최적전송을 적용해 연속 μ를 이산 ν로 밀어내는 최적 맵 T = ∇φ를 보이고, φ는 선형 함수의 최대값이 된다.
max_j{x·y_j + m_j}가 DNN으로 표현될 수 있다는 결과를 통해 φ를 신경망으로 표현한다.
네트워크 L = ⌈log2 n⌉, 폭 N = 2^L 를 명시적으로 제공하고, 표적 지표가 샘플 크기 n에 의존한다.

실험 결과

연구 질문

RQ1깊은 ReLU 네트워크가 주어진 타깃 분포 π를 기본 분포 p_z의 푸시포워드로 신경망 정의 포텐셜의 기울기에 의해 표현할 수 있는가?
RQ2IPM(Wasserstein, MMD, KSD)의 선택이 주어진 근사 오차 ε를 달성하기 위해 필요한 네트워크 크기에 어떤 영향을 미치는가?
RQ3각 IPM에서 π를 근사하기 위한 네트워크 깊이/너비(복잡성)에 대한 정량적 한계는 무엇인가?
RQ4세미-이산 최적전송을 활용하여 신경망 기반 수송 맵을 구성하는 방법은?
RQ5평가에 사용된 세 가지 IPM 아래에서 경험적 측정의 수렴 속도는 어떠한가?

주요 결과

선택된 IPM에서 p_z의 기울기 맵에 의한 push-forward가 ε에 충분히 근접하도록 입력 차원 d이고 출력 하나인 깊은 ReLU 신경망이 존재한다.
1- Wasserstein 거리의 경우, 차원 d=1에서 필요 네트워크 크기 n은 C/ε^2, d=2에서 C log^2(ε)/ε^2, d≥3에서 C^d/ε^d로 스케일링한다(유한 3번째 모멘트 하에서).
Assumption K2를 만족하는 커널의 경우 MMD에 대해 n ≤ C/ε^2.
Assumption K3를 만족하는 커널과 π가 Assumptions 1과 2를 만족할 때, n ≤ C d/ε^2.
세미-이산 최적을 달성하는 수송 맵은 조각별 유한한 아핀 함수의 기울기이며, 이는 정확히 DNN으로 표현 가능하다.
φ(x) = max_j{x·y_j + m_j}를 가진 신경망 기반 포텐셜은 깊이 ⌈log n⌉, 폭 2^⌈log n⌉인 DNN으로 구현될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.