QUICK REVIEW

[論文レビュー] Iterative Amortized Inference

Joseph Marino, Yisong Yue|arXiv (Cornell University)|Jul 24, 2018

Generative Adversarial Networks and Image Synthesis被引用数 37

ひとこと要約

本論文では、符号化された勾配を用いて近似事後分布推定値を繰り返し改善する手法として、反復的アモアタイズド推論を導入する。複数の推論反復において学習された最適化ステップを適用することで、アモアタイゼーションギャップを埋め、画像およびテキストのベンチマークで最先端の性能を達成し、再構成と尤度の両目的において標準的な推論モデルを上回る。

ABSTRACT

Inference models are a key component in scaling variational inference to deep latent variable models, most notably as encoder networks in variational auto-encoders (VAEs). By replacing conventional optimization-based inference with a learned model, inference is amortized over data examples and therefore more computationally efficient. However, standard inference models are restricted to direct mappings from data to approximate posterior estimates. The failure of these models to reach fully optimized approximate posterior estimates results in an amortization gap. We aim toward closing this gap by proposing iterative inference models, which learn to perform inference optimization through repeatedly encoding gradients. Our approach generalizes standard inference models in VAEs and provides insight into several empirical findings, including top-down inference techniques. We demonstrate the inference optimization capabilities of iterative inference models and show that they outperform standard inference models on several benchmark data sets of images and text.

研究の動機と目的

標準的な推論モデルが完全に最適化された事後分布推定値に到達できない、変分推論におけるアモアタイゼーションギャップを是正すること。
学習された最適化を用いて事後分布近似の反復的精錬を可能にすることで、VAEにおける標準的な推論モデルを一般化すること。
実際の応用でよく使われるトップダウン推論技法に、形式的な根拠を与えること。
ニューラルネットワークを用いて最適化ダイナミクスを学習することで、事後分布推論における計算効率と収束速度を向上させること。

提案手法

本手法は、事後分布パラメータに関するELBOの勾配を符号化したものを用いて、近似事後分布パラメータを繰り返し更新するニューラルネットワークベースの推論モデルを採用する。
各ステップで、現在のデータと勾配情報に基づいて事後分布パラメータの更新を予測することで、標準的なVAE推論を一般化し、複数の推論ステップを許容する。
推論モデルは、現在のデータと勾配情報に基づいて、事後分布パラメータの更新を予測することで、事後分布推論のためのメタ最適化子を学習する。
本手法の変種では、勾配の代わりに予測誤差を符号化することで、高階導関数を近似し、実際の応用でより速い収束を達成する。
本手法は、1レベルおよび階層的潜在変数モデルの両方へ適用可能であり、全結合層およびハイウェイ接続層を含むアーキテクチャを用いる。
学習プロセスでは、1つのデータ例に対して複数の推論反復を実施し、反復的プロセス全体に勾配を誤差逆伝播することで、推論モデルと生成モデルを同時に最適化する。

実験結果

リサーチクエスチョン

RQ1反復的推論モデルは、1回の順伝播を超えて事後分布推定値を精錬することで、変分オートエンコーダーにおけるアモアタイゼーションギャップを埋めることができるか？
RQ2事後分布推論における反復的最適化を学習することで、画像およびテキストデータセットにおける尤度と再構成性能が向上するか？
RQ3提案手法は、実際の応用で使われるトップダウン推論技法に形式的な根拠を与えることができるか？
RQ4勾配符号化と誤差符号化のどちらが、反復的推論における収束速度と最終的性能に与える影響が大きいのか？
RQ5明示的な曲率モデリングを必要とせず、再帰的でない最適化モデルが、従来の最適化子を上回る性能を達成できるか？

主な発見

MNIST、Omniglot、SVHN、CIFAR-10、RCV1の各データセットにおいて、反復的推論モデルは標準的な推論モデルを上回り、より高いELBOと低いパープレキシティを達成した。
RCV1テキストデータセットでは、反復的モデルがテストパープレキシティ108.5を達成し、標準モデルを著しく上回り、重要度重み付きベースラインとのギャップを埋めた。
一部の設定において、勾配符号化の代わりに誤差符号化を最適化ステップに用いることで、収束が速くなり、性能が向上した。
1レベルおよび階層的モデルの両方で一貫した改善が見られ、再構成品質と尤度の両方で向上が確認された。
推論反復の経過とともに勾配の大きさが減少し、安定した事後分布推定値への収束が有効に行われていることが示された。
反復的アプローチは、画像およびテキストベンチマークで最先端の性能を達成し、アモアタイゼーションギャップの低減が有効であることを裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。