[論文レビュー] Variational inference via radial transport
この論文は radVI を導入する。radVI は変分推論の放射状輸送ベースのアドオンで、事後の放射状プロファイルを最適化し、理論的収束保証とガウスVIおよび Laplace 近似との互換性を提供する。
In variational inference (VI), the practitioner approximates a high-dimensional distribution $π$ with a simple surrogate one, often a (product) Gaussian distribution. However, in many cases of practical interest, Gaussian distributions might not capture the correct radial profile of $π$, resulting in poor coverage. In this work, we approach the VI problem from the perspective of optimizing over these radial profiles. Our algorithm radVI is a cheap, effective add-on to many existing VI schemes, such as Gaussian (mean-field) VI and Laplace approximation. We provide theoretical convergence guarantees for our algorithm, owing to recent developments in optimization over the Wasserstein space--the space of probability distributions endowed with the Wasserstein distance--and new regularity properties of radial transport maps in the style of Caffarelli (2000).
研究の動機と目的
- 放射状プロファイルを対象とすることで全ガウス族よりも変分近似を改善する動機づけ。
- 参考ガウスからの放射輸送を学習してrad VIの最小化解 π_rad^* を計算する実用的なアルゴリズムを開発する。
- radVI の存在・正則性・収束性に関する理論保証を提供する。
- 既存のVI法を改善する追加モジュールとしての radVI の有用性と前処置器としての役割を示す。
- 等方・非等方のターゲット、および重尾・非滑らかな分布を含む実用的な性能を示す。
提案手法
- radVI の目的関数を min_{mu in C_rad} KL(mu || pi) および pi ~ exp(-V)、C_rad を放射対称測度の集合として定義する。
- 放射測度を標準正規分布の放射写像 T_rad のプッシュフォワードとして表現し、基底関数 Psi_j を用いたパラメトリック族 T_J に制限して放射輸送を近似する。
- KL(T_lambda # rho || pi) を lambda in R^{J+1}_+ 上の最適化対象として定式化し、輸送間の L^2(rho) 距離と加重ユークリッド距離との等長性を活用して勾配法による最適化を可能にする。
- 普遍近似保証を導出し、J および他のパラメータが適切にスケールするとき T_J における近似最適解 _hat_T の存在を示す(定理 4.1)。
- radVI 勾配法の収束保証(定理 4.3)と確率的勾配下での安定性(定理 4.6)を提供する。
- 任意で radVI を Gaussian VI や Laplace 近似の前処理としての whitening/conditioning ステップとして適用する(アルゴリズム 2)。

実験結果
リサーチクエスチョン
- RQ1放射対称性を活用して重尾や非ガウス後方の変分近似を改善できるか。
- RQ2パラメトリックな放射輸送写像族は真の放射最小化解 pi_rad^* をどれだけ正確に近似でき、収束保証はどうなるか。
- RQ3radVI は実務的に既存の VI 手法(Gaussian VI、Laplace)を改善し、効果的な前処理器となり得るか。
- RQ4対数凸・対数滑らかな後方における放射最小化解の正則性と最適放射輸送写像の性質は何か。
- RQ5提案された radVI アプローチは収束保証が次元に依存しないか。
主な発見
| Isotropic targets | Gaussian | Laplace | Logistic | Student-t |
|---|---|---|---|---|
| LA | 2.45e-4 | 20.00 | 1.6e3 | 25.87 |
| GVI | 7.34e-4 | 8.24 | 3.96 | 1.99 |
| radVI | 1.15e-4 | 5.37e-2 | 1.84e-1 | 1.19e-1 |
- radVI はパラメトライズされた族内で最適放射輸送写像への収束保証を次元に依存せず提供する(定理 4.3)。
- 放射最小化解 pi_rad^* は存在し一意であり、ターゲット pi からの対数滑らかさと強い対数凸性を受け継ぐ(命題 3.2, 3.4)。
- 最適放射輸送写像 T_rad^* は Caffarelli 型の収縮推定を満たし、放射プロファイルの導関数が次元にほぼ依存しない形で有界になる(定理 3.5)。
- 普遍近似結果により、適切に選択された放射写像辞書 T_hat from T_J は T_rad^* を誤差 epsilon で近似でき、R および J の適切な選択があれば可能になる(定理 4.1)。
- radVI は等方ターゲットにおいて Wasserstein 距離の精度を LA および Gaussian VI より大幅に改善し、特に Student-t のような重尾分布で顕著(表 1、図 1)。
- radVI は既存のガウスベースの VI 手法と組み合わせて尾部挙動をよりよく捉える前処理/ホワイトニングステップとして機能し得る(アルゴリズム 2)。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。