QUICK REVIEW

[논문 리뷰] Universal Regular Conditional Distributions

Anastasis Kratsios|arXiv (Cornell University)|2021. 05. 17.

Statistical Methods and Inference참고 문헌 71인용 수 1

한 줄 요약

이 논문은 1-워샤르슈타인 공간 P1(RD)에서 정규 조건부 분포(RCDs)를 보편적으로 근사하는 확률적 트랜스포머(PT)를 소개한다. 특징 맵, 소프트맥스 출력을 갖는 딥 피드포워드 네트워크, 그리고 새로운 확률적 어텐션 메커니즘을 조합함으로써 PT는 이산화된 확률 측도의 볼록 조합을 구성하여, 컴acts 집합 위에서 어떤 연속적인 P1(RD)-값을 갖는 함수를 균일하게 근사한다. 이는 구조적 함수 근사 기법을 통해 차원의 극복 문제를 피한다.

ABSTRACT

We introduce a deep learning model that can universally approximate regular conditional distributions (RCDs). The proposed model operates in three phases: first, it linearizes inputs from a given metric space $\mathcal{X}$ to $\mathbb{R}^d$ via a feature map, then a deep feedforward neural network processes these linearized features, and then the network's outputs are then transformed to the $1$-Wasserstein space $\mathcal{P}_1(\mathbb{R}^D)$ via a probabilistic extension of the attention mechanism of Bahdanau et al.\ (2014). Our model, called the extit{probabilistic transformer (PT)}, can approximate any continuous function from $\mathbb{R}^d $ to $\mathcal{P}_1(\mathbb{R}^D)$ uniformly on compact sets, quantitatively. We identify two ways in which the PT avoids the curse of dimensionality when approximating $\mathcal{P}_1(\mathbb{R}^D)$-valued functions. The first strategy builds functions in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$ which can be efficiently approximated by a PT, uniformly on any given compact subset of $\mathbb{R}^d$. In the second approach, given any function $f$ in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$, we build compact subsets of $\mathbb{R}^d$ whereon $f$ can be efficiently approximated by a PT.

연구 동기 및 목표

기계 학습에서 정규 조건부 분포(RCDs)를 근사하기 위한 이론적으로 탄탄한 딥 러닝 도구의 부족을 해결하기 위해.
보편적인 RCDs, 확률적 과정, 지식 기반 불확실성 정량화, 제약 조건이 있는 함수 근사와 관련된 네 가지 열린 문제를 해결하기 위해.
Rd에서 P1(RD)로 가는 연속 함수를 컴팩트 부분집합에서 균일 수렴하도록 보편적으로 근사할 수 있는 딥 러닝 모델을 구축하기 위해.
특정 컴팩트 부분집합 설계와 구조적 함수 클래스를 통해 RCD 근사에서 차원의 극복 문제를 피하기 위해.

제안 방법

모델은 먼저 메트릭 공간 X에서의 입력을 특징 맵 ϕ를 통해 Rd로 선형화한다.
소프트맥스 출력층을 갖는 딥 피드포워드 신경망이 선형화된 특징을 고차원 단체로 매핑한다.
새로운 확률적 어텐션 메커니즘이 단체 출력을 P1(RD) 내의 N개의 이산화된 확률 측도의 볼록 조합으로 변환한다.
확률적 어텐션 메커니즘은 단체 제약 조건을 암묵적으로 강제하면서도 정확한 볼록 조합을 구현할 수 있도록 한다.
모델은 두 단계 히우리스틱을 통해 훈련된다: 첫째, 훈련 데이터에서 N개의 대표 측도 µn을 식별한다; 둘째, 각 입력이 가장 가까운 µn에 속하도록 분류기 학습한다.
이 접근법은 워샤르슈타인 거리 계산을 모델 훈련에서 분리함으로써, P1(RD)-값을 갖는 학습을 유클리드 분류 문제로 환원함으로써 초입방체 복잡도를 피한다.

실험 결과

연구 질문

RQ1딥 러닝 모델은 1-워샤르슈타인 공간에서 정규 조건부 분포를 보편적으로 근사할 수 있는가?
RQ2이러한 모델은 차원의 극복 문제를 피하면서 P1(RD)-값을 갖는 함수를 효율적으로 근사할 수 있는가?
RQ3이 모델은 유한 매개변수를 갖는 기계 학습 모델의 지식 기반 불확실성을 정량화하는 데 사용될 수 있는가?
RQ4출력이 랜덤화된 경우, 제약 조건이 있는 함수들(예: f([0,1]^d) ⊆ Y)을 근사할 수 있는가?
RQ5이 모델의 순환적 응용은 비-마르코프 확률 과정을 근사할 수 있는가?

주요 결과

확률적 트랜스포머는 컴팩트 부분집합에서 Rd에서 P1(RD)로 가는 임의의 연속 함수를 1-워샤르슈타인 거리 기준으로 균일하게 근사할 수 있으며, 정량적 오차 한계를 제공한다.
모델은 컴팩트 부분집합에서 PT가 효율적으로 근사 가능한 함수 클래스를 구성함으로써 차원의 극복 문제를 피한다.
임의의 주어진 f ∈ C(Rd, P1(RD))에 대해, f가 컴팩트 부분집합에서 PT에 의해 효율적으로 근사될 수 있도록 하는 컴팩트 부분집합을 구성한다. 이는 균일 수렴을 보장한다.
모델은 특징 맵, 소프트맥스 출력을 갖는 딥 분류기, 그리고 이산화된 측도의 볼록 조합을 형성하는 확률적 어텐션 메커니즘의 조합을 통해 보편 근사를 달성한다.
훈련 절차는 워샤르슈타인 거리의 직접 계산을 피함으로써, 측도 선택과 분류기 훈련을 분리함으로써 계산 복잡도를 감소시킨다.
이론적 한계는 목표 함수의 리프시츠 상수와 균일 연속성에 의해 오차가 제어됨을 보여주며, 칸토로비치-루빈스타인 이중성에 의해 명시적인 오차 스케일링이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.