Skip to main content
QUICK REVIEW

[论文解读] Universal Regular Conditional Distributions

Anastasis Kratsios|arXiv (Cornell University)|May 17, 2021
Statistical Methods and Inference参考文献 71被引用 1
一句话总结

本文提出概率变压器(PT),一种深度学习模型,可普遍逼近1-沃珀斯泰因空间P1(RD)中的规则条件分布(RCD)。通过结合特征映射、具有Softmax输出的深度前馈网络以及一种新颖的概率注意力机制,PT 构造量化概率测度的凸组合,以在紧集上一致逼近任意连续的P1(RD)-取值函数,同时通过结构化函数逼近避免维度灾难。

ABSTRACT

We introduce a deep learning model that can universally approximate regular conditional distributions (RCDs). The proposed model operates in three phases: first, it linearizes inputs from a given metric space $\mathcal{X}$ to $\mathbb{R}^d$ via a feature map, then a deep feedforward neural network processes these linearized features, and then the network's outputs are then transformed to the $1$-Wasserstein space $\mathcal{P}_1(\mathbb{R}^D)$ via a probabilistic extension of the attention mechanism of Bahdanau et al.\ (2014). Our model, called the extit{probabilistic transformer (PT)}, can approximate any continuous function from $\mathbb{R}^d $ to $\mathcal{P}_1(\mathbb{R}^D)$ uniformly on compact sets, quantitatively. We identify two ways in which the PT avoids the curse of dimensionality when approximating $\mathcal{P}_1(\mathbb{R}^D)$-valued functions. The first strategy builds functions in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$ which can be efficiently approximated by a PT, uniformly on any given compact subset of $\mathbb{R}^d$. In the second approach, given any function $f$ in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$, we build compact subsets of $\mathbb{R}^d$ whereon $f$ can be efficiently approximated by a PT.

研究动机与目标

  • 为解决机器学习中缺乏理论基础的深度学习工具来逼近规则条件分布(RCD)的问题。
  • 解决四个开放问题:涉及普遍RCD、随机过程、认知不确定性量化以及约束函数逼近。
  • 构建一种深度学习模型,能够以紧子集上的一致收敛性,普遍逼近从Rd到P1(RD)的连续函数。
  • 通过结构化函数类与紧子集设计,在RCD逼近中避免维度灾难。

提出的方法

  • 该模型首先通过特征映射ϕ将来自度量空间X的输入线性化为Rd。
  • 一个具有Softmax输出层的深度前馈神经网络将线性化后的特征映射到高维单纯形上的点。
  • 一种新颖的概率注意力机制将单纯形输出转换为P1(RD)中N个量化概率测度的凸组合。
  • 概率注意力机制实现了凸组合的精确实现,同时隐式强制满足单纯形约束。
  • 通过两步启发式方法进行模型训练:首先从训练数据中识别出N个代表性测度µn;其次训练分类器,将每个输入分配给其最近的µn。
  • 该方法将沃珀斯泰因距离计算与模型训练解耦,通过将P1(RD)-取值学习问题转化为欧氏分类问题,避免了超立方复杂度。

实验结果

研究问题

  • RQ1深度学习模型能否在1-沃珀斯泰因空间中普遍逼近规则条件分布?
  • RQ2此类模型能否在避免维度灾难的前提下高效逼近P1(RD)-取值函数?
  • RQ3该模型能否用于量化有限参数化机器学习模型中的认知不确定性?
  • RQ4当输出被随机化时,该模型能否逼近约束函数(例如f([0,1]^d) ⊆ Y)?
  • RQ5该模型的递归应用能否逼近非马尔可夫随机过程?

主要发现

  • 概率变压器可一致逼近任意从Rd到P1(RD)的连续函数,且在紧子集上具有1-沃珀斯泰因距离下的定量误差界。
  • 该模型通过在C(Rd, P1(RD))中构建可高效逼近的函数类,避免了维度灾难,这些函数类在给定紧集上可被PT高效逼近。
  • 对于任意给定的f ∈ C(Rd, P1(RD)),本文构造了Rd的紧子集,使得f可在这些子集上被PT高效逼近,确保一致收敛。
  • 该模型通过结合特征映射、具有Softmax输出的深度分类器以及形成量化测度凸组合的概率注意力机制,实现普遍逼近。
  • 训练过程通过将测度选择与分类器训练解耦,避免了直接计算沃珀斯泰因距离,从而降低计算复杂度。
  • 理论边界表明,逼近误差受目标函数的利普希茨常数和一致连续性控制,且可通过坎托罗维奇-鲁宾斯坦对偶性明确误差缩放。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。