QUICK REVIEW

[論文レビュー] Amortized Inference Regularization

Rui Shu, Hung Bui|arXiv (Cornell University)|May 23, 2018

Gaussian Processes and Bayesian Inference参考文献 33被引用数 48

ひとこと要約

この論文は、VAEの推論モデルを制約するためのアモルタイズド推論正則化（AIR）を提案し、アモルタイズド後方分布を平滑化することでテストセットの対数尤度を改善し、推論ギャップ/generativeギャップを低減できることを示し、AIRをIWAEへ拡張する。

ABSTRACT

The variational autoencoder (VAE) is a popular model for density estimation and representation learning. Canonically, the variational principle suggests to prefer an expressive inference model so that the variational approximation is accurate. However, it is often overlooked that an overly-expressive inference model can be detrimental to the test set performance of both the amortized posterior approximator and, more importantly, the generative density estimator. In this paper, we leverage the fact that VAEs rely on amortized inference and propose techniques for amortized inference regularization (AIR) that control the smoothness of the inference model. We demonstrate that, by applying AIR, it is possible to improve VAE generalization on both inference and generative performance. Our paper challenges the belief that amortized inference is simply a mechanism for approximating maximum likelihood training and illustrates that regularization of the amortization family provides a new direction for understanding and improving generalization in VAEs.

研究の動機と目的

推論ファミリを単に拡張するだけでなく、VAEの一般化を改善するためにアモルタイズド推論を正則化する動機付け。
アモルタイズド推論モデルの平滑性を確保する機構として、ノイズ除去（デノイジング）とウェイト正規化を提案する。
後方分布と生成モデルへのAIRの理論的影響を分析する。
複数のデータセットに対してVAEおよびIWAE上でAIRの有効性を示す。

提案手法

ELBOをデータ依存の正則化最大尤度目的関数として再解釈し、AIRを容量制約付きの推論ファミリとして導入する。
二つのAIRの実体化を提案する： (1) ノイズをエンコーダに注入して正則化するデノイジング変分オートエンコーダ（DVAE）; (2) ウェイト正規化を通じて平滑性を課すウェイト正規化推論（WNI）。
最適なDVAE推論モデルがカーネル回帰形に収束することと、正則化強度がノイズレベルσ（および標準ELBOとの凸結合を介して）により制御されることを示す。
IWAEへAIRを拡張する。複数の重要サンプルを考慮する正則化子R_kを定義し、AIRがkとどのように相互作用して正則化を調整するかを示す。
平滑性と正則化強度に関する定理（補助定理/定理）を提供し、複数のデータセットで経験的結果を示す。

実験結果

リサーチクエスチョン

RQ1AIRによってアモルタイズド推論モデルの容量を制限すると、テストセットの対数尤度が改善され、推論ギャップと生成ギャップが軽減されるか？
RQ2DVAEとウェイト正規化エンコーダは、テスト性能と正則化強度の点で標準VAEとどのように比較されるか？
RQ3AIRはIWAEおよび重要サンプル数kとどのように相互作用するか？
RQ4滑らかなアモルタイズド推論が生成モデルに与える影響を説明する理論的洞察は何か？
RQ5AIRは異なるデータレジームを持つデータセット全体で実用的で頑健な正則化を提供できるか？

主な発見

-ln p_theta(x)	Delta_inf	-L(x)
86.93 ± 0.04	8.54 ± 0.14	95.48 ± 0.07
86.46 ± 0.02	6.34 ± 0.05	92.80 ± 0.07
86.51 ± 0.02	6.83 ± 0.04	93.35 ± 0.06
86.42 ± 0.01	6.68 ± 0.01	93.10 ± 0.02
110.32 ± 0.16	12.03 ± 0.25	122.35 ± 0.33
109.31 ± 0.19	12.56 ± 0.18	132.04 ± 0.37
110.12 ± 0.18	12.44 ± 0.16	122.56 ± 0.34
109.16 ± 0.31	11.39 ± 0.10	120.55 ± 0.20
138.05 ± 0.15	28.90 ± 0.42	109.14 ± 0.28
?	?	?

AIRは標準VAEと比較してMNIST、OMNIGLOT、Caltech Silhouettesでテストセットの対数尤度を改善し、推論ギャップを低減する。
DVAEおよびWNI-VAEは、複数の指標（負の対数尤度、アモルタイズドELBO、推論ギャップ）で3データセット全てにおいて一般的にVAEを上回る。
σ（DVAE）またはH（WNI）を介して正則化強度を高めると、過学習から過小適合へと移行し、適切な値でいくつかのデータセットでテスト対数尤度が0.5–1.0 nat改善される。
IWAE設定では、DIWAEとWNI-IWAEは正 AIRなしのIWAEを一貫して上回り、テスト対数尤度の点で優れ、推論ギャップも減少することが多い。
IWAEでkが増えるとAIRの正則化効果は弱まるが、実用的なk（例: k=8, k=64）では依然有益で、より大きなkは強いAIRによる過小適合を緩和する。
理論的命題は、より滑らかなアモルタイズド推論が生成器の訓練サンプルに対する凸結合重み付けを生むことを示し、生成器の自然な正則化機構を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。