Skip to main content
QUICK REVIEW

[논문 리뷰] Universal Regular Conditional Distributions

Anastasis Kratsios|arXiv (Cornell University)|2021. 05. 17.
Statistical Methods and Inference참고 문헌 71인용 수 1
한 줄 요약

이 논문은 1-워샤르슈타인 공간 P1(RD)에서 정규 조건부 분포(RCDs)를 보편적으로 근사하는 확률적 트랜스포머(PT)를 소개한다. 특징 맵, 소프트맥스 출력을 갖는 딥 피드포워드 네트워크, 그리고 새로운 확률적 어텐션 메커니즘을 조합함으로써 PT는 이산화된 확률 측도의 볼록 조합을 구성하여, 컴acts 집합 위에서 어떤 연속적인 P1(RD)-값을 갖는 함수를 균일하게 근사한다. 이는 구조적 함수 근사 기법을 통해 차원의 극복 문제를 피한다.

ABSTRACT

We introduce a deep learning model that can universally approximate regular conditional distributions (RCDs). The proposed model operates in three phases: first, it linearizes inputs from a given metric space $\mathcal{X}$ to $\mathbb{R}^d$ via a feature map, then a deep feedforward neural network processes these linearized features, and then the network's outputs are then transformed to the $1$-Wasserstein space $\mathcal{P}_1(\mathbb{R}^D)$ via a probabilistic extension of the attention mechanism of Bahdanau et al.\ (2014). Our model, called the extit{probabilistic transformer (PT)}, can approximate any continuous function from $\mathbb{R}^d $ to $\mathcal{P}_1(\mathbb{R}^D)$ uniformly on compact sets, quantitatively. We identify two ways in which the PT avoids the curse of dimensionality when approximating $\mathcal{P}_1(\mathbb{R}^D)$-valued functions. The first strategy builds functions in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$ which can be efficiently approximated by a PT, uniformly on any given compact subset of $\mathbb{R}^d$. In the second approach, given any function $f$ in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$, we build compact subsets of $\mathbb{R}^d$ whereon $f$ can be efficiently approximated by a PT.

연구 동기 및 목표

  • 기계 학습에서 정규 조건부 분포(RCDs)를 근사하기 위한 이론적으로 탄탄한 딥 러닝 도구의 부족을 해결하기 위해.
  • 보편적인 RCDs, 확률적 과정, 지식 기반 불확실성 정량화, 제약 조건이 있는 함수 근사와 관련된 네 가지 열린 문제를 해결하기 위해.
  • Rd에서 P1(RD)로 가는 연속 함수를 컴팩트 부분집합에서 균일 수렴하도록 보편적으로 근사할 수 있는 딥 러닝 모델을 구축하기 위해.
  • 특정 컴팩트 부분집합 설계와 구조적 함수 클래스를 통해 RCD 근사에서 차원의 극복 문제를 피하기 위해.

제안 방법

  • 모델은 먼저 메트릭 공간 X에서의 입력을 특징 맵 ϕ를 통해 Rd로 선형화한다.
  • 소프트맥스 출력층을 갖는 딥 피드포워드 신경망이 선형화된 특징을 고차원 단체로 매핑한다.
  • 새로운 확률적 어텐션 메커니즘이 단체 출력을 P1(RD) 내의 N개의 이산화된 확률 측도의 볼록 조합으로 변환한다.
  • 확률적 어텐션 메커니즘은 단체 제약 조건을 암묵적으로 강제하면서도 정확한 볼록 조합을 구현할 수 있도록 한다.
  • 모델은 두 단계 히우리스틱을 통해 훈련된다: 첫째, 훈련 데이터에서 N개의 대표 측도 µn을 식별한다; 둘째, 각 입력이 가장 가까운 µn에 속하도록 분류기 학습한다.
  • 이 접근법은 워샤르슈타인 거리 계산을 모델 훈련에서 분리함으로써, P1(RD)-값을 갖는 학습을 유클리드 분류 문제로 환원함으로써 초입방체 복잡도를 피한다.

실험 결과

연구 질문

  • RQ1딥 러닝 모델은 1-워샤르슈타인 공간에서 정규 조건부 분포를 보편적으로 근사할 수 있는가?
  • RQ2이러한 모델은 차원의 극복 문제를 피하면서 P1(RD)-값을 갖는 함수를 효율적으로 근사할 수 있는가?
  • RQ3이 모델은 유한 매개변수를 갖는 기계 학습 모델의 지식 기반 불확실성을 정량화하는 데 사용될 수 있는가?
  • RQ4출력이 랜덤화된 경우, 제약 조건이 있는 함수들(예: f([0,1]^d) ⊆ Y)을 근사할 수 있는가?
  • RQ5이 모델의 순환적 응용은 비-마르코프 확률 과정을 근사할 수 있는가?

주요 결과

  • 확률적 트랜스포머는 컴팩트 부분집합에서 Rd에서 P1(RD)로 가는 임의의 연속 함수를 1-워샤르슈타인 거리 기준으로 균일하게 근사할 수 있으며, 정량적 오차 한계를 제공한다.
  • 모델은 컴팩트 부분집합에서 PT가 효율적으로 근사 가능한 함수 클래스를 구성함으로써 차원의 극복 문제를 피한다.
  • 임의의 주어진 f ∈ C(Rd, P1(RD))에 대해, f가 컴팩트 부분집합에서 PT에 의해 효율적으로 근사될 수 있도록 하는 컴팩트 부분집합을 구성한다. 이는 균일 수렴을 보장한다.
  • 모델은 특징 맵, 소프트맥스 출력을 갖는 딥 분류기, 그리고 이산화된 측도의 볼록 조합을 형성하는 확률적 어텐션 메커니즘의 조합을 통해 보편 근사를 달성한다.
  • 훈련 절차는 워샤르슈타인 거리의 직접 계산을 피함으로써, 측도 선택과 분류기 훈련을 분리함으로써 계산 복잡도를 감소시킨다.
  • 이론적 한계는 목표 함수의 리프시츠 상수와 균일 연속성에 의해 오차가 제어됨을 보여주며, 칸토로비치-루빈스타인 이중성에 의해 명시적인 오차 스케일링이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.