QUICK REVIEW

[論文レビュー] Reinterpreting Importance-Weighted Autoencoders

Chris Cremer, Quaid Morris|arXiv (Cornell University)|Apr 10, 2017

Adversarial Robustness in Machine Learning被引用数 45

ひとこと要約

この論文は、重要度加重自己符号化器（IWAE）を、よりタイトな下界を最大化するものではなく、より複雑で暗黙的に定義された事後分布 $ ilde{q}_{\text{IW}}$ を用いて標準的な VAE 目的関数を最適化するものとして再解釈する。主な貢献は、IWAE手順が $k \to \infty$ のとき真の事後分布に収束する非パrametricかつ重要度加重の事後分布を暗黙的に学習することを示したことであり、$q_{\text{EW}}$、すなわち期待重要度加重分布を導入した。これは、KL 収束の観点から元の $q(z|x)$ よりも真の事後分布に近いことが証明されている。

ABSTRACT

The standard interpretation of importance-weighted autoencoders is that they maximize a tighter lower bound on the marginal likelihood than the standard evidence lower bound. We give an alternate interpretation of this procedure: that it optimizes the standard variational lower bound, but using a more complex distribution. We formally derive this result, present a tighter lower bound, and visualize the implicit importance-weighted distribution.

研究の動機と目的

IWAE 目的関数を、よりタイトな ELBO を最大化することを超えて、その背後にある暗黙的事後分布を分析することで、再解釈すること。
多サンプル重要度再重み付けから生じる暗黙的重要度加重事後分布 $\tilde{q}_{\text{IW}}$ を形式的に導出すること。
ベースの $q(z|x)$ よりもより正確な事後分布近似である、正規化された $q_{\text{EW}}$、すなわち期待重要度加重分布を導入すること。
$q_{\text{EW}}$ が $q(z|x)$ よりも真の事後分布に KL 発散の観点から近いかを証明すること。
カーネル密度推定の歪みを生じさせないよう、$\tilde{q}_{\text{IW}}$ および $q_{\text{EW}}$ の可視化とサンプリングアルゴリズムを提供すること。

提案手法

重要度再重み付けを用いて、$q(z|x)$ からの $k$ 個の重要度サンプル $z_{2:k}$ を関数として、非正規化された暗黙的事後分布 $\tilde{q}_{\text{IW}}(z|x,z_{2:k})$ を導出する。
期待値を $z_{2:k}$ に関して取ることで、$\tilde{q}_{\text{IW}}$ を $q(z|x)$ の代わりに用いた場合、IWAE の ELBO が VAE の ELBO と数学的に等価であることを示す。
$\tilde{q}_{\text{IW}}$ を $z_{2:k}$ に関して期待値を取ることで、正規化され、非パrametricな事後分布近似を形成する $q_{\text{EW}}(z|x)$ を導入する。
アルゴリズム 1 を提案し、これはサンプリング・インポートランス・リサンプリング（SIR）と同等の $q_{\text{EW}}(z|x)$ からのサンプリングを実現する。
アルゴリズム 2 を提案し、$z_{2:k}$ の複数のバッチを用いたモンテカルロ平均化により、カーネルスムージングを用いずに $q_{\text{EW}}(z|x)$ のプロットを可能にする。
ジェンセンの不等式と KL 発散の分解を用いて、$q_{\text{EW}}$ が $q(z|x)$ よりも真の事後分布に近いかを証明する。

実験結果

リサーチクエスチョン

RQ1IWAE 目的関数は、より複雑で暗黙的な事後分布を用いて、標準的な VAE ELBO を最適化するものとして再解釈可能か？
RQ2IWAE における重要度再重み付けによって生じる暗黙的事後分布 $\tilde{q}_{\text{IW}}$ の形と挙動は何か？
RQ3期待重要度加重事後分布 $q_{\text{EW}}$ は、KL 発散の観点から真の事後分布とどのように比較されるか？
RQ4$q_{\text{EW}}$ は、カーネル密度推定の歪みを生じさせずに、効率的にサンプリングおよび可視化可能か？
RQ5$k \to \infty$ のとき、$\tilde{q}_{\text{IW}}$ の極限的挙動は何か？

主な発見

期待値を $z_{2:k}$ に関して取ることで、$\tilde{q}_{\text{IW}}(z|x,z_{2:k})$ を $q(z|x)$ の代わりに用いた場合、IWAE の ELBO は VAE の ELBO と数学的に等価である。
期待重要度加重事後分布 $q_{\text{EW}}(z|x)$ は正規化された分布であり、$k \to \infty$ のとき真の事後分布 $p(z|x)$ に収束する。
真の事後分布との KL 発散は、$q_{\text{EW}}$ のほうが $q(z|x)$ よりも厳密に小さい、すなわち $KL(q_{\text{EW}}||p) \leq KL(q||p)$ が成り立つ。
暗黙的事後分布 $\tilde{q}_{\text{IW}}$ は特定の $z_{2:k}$ サンプルバッチに依存し、非正規化であるが、その期待値は正規化された $q_{\text{EW}}$ を与える。
アルゴリズム 2 により、カーネルスムージングを用いずに複数の $z_{2:k}$ バッチの平均化を用いることで、$q_{\text{EW}}$ の正確で歪みのない可視化が可能である。
$k$ が増加するにつれ、$q_{\text{EW}}$ は真の事後分布を次第にタイトに近似するようになることが、2次元および1次元の可視化で示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。