QUICK REVIEW

[論文レビュー] Universal Regular Conditional Distributions

Anastasis Kratsios|arXiv (Cornell University)|May 17, 2021

Statistical Methods and Inference参考文献 71被引用数 1

ひとこと要約

この論文は、1-ワサーティン空間P1(RD)における正則条件付き分布（RCD）を普遍的に近似する深層学習モデル、確率的トランスフォーマー（PT）を紹介する。特徴マップ、ソフトマックス出力を持つ深層順方向ネットワーク、および新規の確率的アテンション機構を組み合わせることで、PTは量子化された確率測度の凸結合を構築し、コンパクト集合上で任意の連続なP1(RD)-値関数を一様に近似する。次元の呪いを構造的関数近似によって回避することで、次元の増大に伴う計算困難を緩和する。

ABSTRACT

We introduce a deep learning model that can universally approximate regular conditional distributions (RCDs). The proposed model operates in three phases: first, it linearizes inputs from a given metric space $\mathcal{X}$ to $\mathbb{R}^d$ via a feature map, then a deep feedforward neural network processes these linearized features, and then the network's outputs are then transformed to the $1$-Wasserstein space $\mathcal{P}_1(\mathbb{R}^D)$ via a probabilistic extension of the attention mechanism of Bahdanau et al.\ (2014). Our model, called the extit{probabilistic transformer (PT)}, can approximate any continuous function from $\mathbb{R}^d $ to $\mathcal{P}_1(\mathbb{R}^D)$ uniformly on compact sets, quantitatively. We identify two ways in which the PT avoids the curse of dimensionality when approximating $\mathcal{P}_1(\mathbb{R}^D)$-valued functions. The first strategy builds functions in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$ which can be efficiently approximated by a PT, uniformly on any given compact subset of $\mathbb{R}^d$. In the second approach, given any function $f$ in $C(\mathbb{R}^d,\mathcal{P}_1(\mathbb{R}^D))$, we build compact subsets of $\mathbb{R}^d$ whereon $f$ can be efficiently approximated by a PT.

研究の動機と目的

機械学習における正則条件付き分布（RCD）を近似する理論的根拠を持つ深層学習ツールの不足に対処すること。
普遍的RCD、確率過程、エピステミック的不確実性の定量化、制約付き関数近似の4つの未解決問題を解決すること。
コンパクト部分集合上で一様収束するように、RdからP1(RD)への連続関数を普遍的に近似可能な深層学習モデルを構築すること。
コンパクト部分集合の設計と構造的関数クラスを用いることで、RCD近似における次元の呪いを回避すること。

提案手法

モデルはまず、メトリック空間Xからの入力を特徴マップϕによりRdに線形化する。
ソフトマックス出力層を備えた深層順方向ニューラルネットワークが、線形化された特徴量を高次元の単体上への点にマップする。
新規の確率的アテンション機構が、単体出力を、P1(RD)内に存在するN個の量子化された確率測度の凸結合に変換する。
確率的アテンション機構により、凸結合が正確に実装されるとともに、単体制約が暗黙的に強制される。
モデルは2段階のヒューリスティックな手順で訓練される：まず、訓練データからN個の代表的測度µnを特定し、次に、各入力をその最も近いµnに割り当てる分類器を訓練する。
この手法により、ワサーティン距離の計算とモデル訓練を分離し、P1(RD)-値関数学習をユークリッド空間上の分類問題に還元することで、超立方体の計算量を回避する。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは1-ワサーティン空間における正則条件付き分布を普遍的に近似できるか？
RQ2このようなモデルは、次元の呪いを回避しつつ、P1(RD)-値関数を効率的に近似できるか？
RQ3このモデルは、有限パラメータを持つ機械学習モデルにおけるエピステミック的不確実性を定量化するために使用できるか？
RQ4出力が確率的である場合に、f([0,1]^d) ⊆ Yなどの制約付き関数を近似できるか？
RQ5モデルの再帰的適用により、非マルコフ過程の確率的過程を近似できるか？

主な発見

確率的トランスフォーマーは、コンパクト部分集合上で、RdからP1(RD)への任意の連続関数を、1-ワサーティン距離において定量的な誤差バウンドを伴って一様に近似可能である。
モデルは、与えられたコンパクト集合上でPTによって効率的に近似可能な関数クラスを構築することで、次元の呪いを回避する。
任意のf ∈ C(Rd, P1(RD))に対して、fがPTによって効率的に近似可能であり、一様収束が保証されるようなRdのコンパクト部分集合を構成できる。
モデルは、特徴マップ、ソフトマックス出力を持つ深層分類器、および量子化された測度の凸結合を形成する確率的アテンション機構を組み合わせることで、普遍的近似を達成する。
訓練手順では、測度選択と分類器訓練を分離することで、ワサーティン距離の直接計算を回避し、計算複雑度を低減する。
理論的バウンドにより、近似誤差がターゲット関数のリプシッツ定数および一様連続性によって制御され、カントロビッチ＝ルビンシュテイン双対性を用いた明示的な誤差スケーリングが得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。