QUICK REVIEW

[論文レビュー] Denoising Criterion for Variational Auto-Encoding Framework

Daniel Im Jiwoong Im, Sungjin Ahn|arXiv (Cornell University)|Nov 19, 2015

Generative Adversarial Networks and Image Synthesis被引用数 71

ひとこと要約

本稿では、入力層および潜在変数層の両方にノイズを注入することで変分オートエノミングの性能を向上させる、ノイズ除去変分オートエノミング（DVAE）を提案する。新たなノイズ除去変分下界を用いることで、訓練が容易となる。この手法は、MNISTおよびFrey Faceデータセットにおいて、標準的なVAEやIWAEよりも顕著に優れた対数尤度性能を達成しており、より頑健で柔軟な後方分布近似を学習している。

ABSTRACT

Denoising autoencoders (DAE) are trained to reconstruct their clean inputs with noise injected at the input level, while variational autoencoders (VAE) are trained with noise injected in their stochastic hidden layer, with a regularizer that encourages this noise injection. In this paper, we show that injecting noise both in input and in the stochastic hidden layer can be advantageous and we propose a modified variational lower bound as an improved objective function in this setup. When input is corrupted, then the standard VAE lower bound involves marginalizing the encoder conditional distribution over the input noise, which makes the training criterion intractable. Instead, we propose a modified training criterion which corresponds to a tractable bound when input is corrupted. Experimentally, we find that the proposed denoising variational autoencoder (DVAE) yields better average log-likelihood than the VAE and the importance weighted autoencoder on the MNIST and Frey Face datasets.

研究の動機と目的

変分推論フレームワークにノイズ除去基準を組み込むことで、変分オートエノミングの表現力と頑健性を向上させること。
入力ノイズが導入された際の標準VAEの訓練における非可解性を克服するため、新たな容易な最適化可能な目的関数を導出すること。
認識ネットワークにおける入力ノイズの周辺化により、混合ガウス分布のようなより柔軟な後方分布近似を可能にすること。
VAEや重要度重み付きオートエノミング（IWAE）を含む複数のモデルにおいて、ノイズ除去が性能向上に寄与することを実験的に検証すること。
グローバルおよびピクセル単位のノイズ率を含む、異なる汚染分布がモデル性能に与える影響を調査すること。

提案手法

入力がノイズで汚染されても容易に最適化可能な、ノイズ除去変分下界（DVVB）と呼ばれる新しい目的関数を提案する。
入力ノイズを周辺化する認識ネットワークを導入することで、より柔軟な後方分布を学習可能にする。
入力レベルのノイズをモデル化するための汚染分布（例：ベルヌーイ分布やガウス分布）を用い、ノイズ率はグローバルまたはピクセル別に設定可能である。
DVVBをVAEやIWAEといった標準モデルに適用し、入力層および潜在変数層の両方にノイズを含めたエンドツーエンドの訓練を可能にする。
再パrameterizationトリックと確率的バックプロパゲーションを用いて、新しい目的関数の効率的最適化を実現する。
固定および学習可能な汚染分布の両方を検討するが、後者については将来的な研究として残す。

実験結果

リサーチクエスチョン

RQ1入力層および潜在変数層の両方にノイズを注入することで、変分オートエノミングの性能向上が達成できるか？
RQ2入力が汚染された状態でも、入力ノイズの周辺化が非可解である問題を克服できるような容易な変分下界を導出可能か？
RQ3提案されたノイズ除去基準により、標準VAEやIWAEよりもタイトな下界が得られ、より良い汎化性能が達成できるか？
RQ4汚染分布の選択（グローバル vs. ピクセル単位）がモデル性能に与える影響は何か？
RQ5ノイズ除去フレームワークは、IWAE や再帰的推論ネットワークのようなモデルへも効果的に拡張可能か？

主な発見

標準的なフィードフォワード推論ネットワークを用いたDVAEは、MNISTで負の対数尤度94.32 ± 0.12を達成し、標準VAEや再帰的構造なしのDVAEを上回った。
ゲート付き再帰ユニット（GRUs）を推論ネットワークに用いた場合、DIWAE（ノイズ除去IWAE）はノイズ率10%で負の対数尤度92.84 ± 0.07を達成し、他のモデルを著しく上回った。
GRUを用いたDVAEはノイズ率5%で94.30 ± 0.09を達成し、標準VAEが失敗する再帰的アーキテクチャにおいても、ノイズ除去が過学習を緩和することが示された。
確率的入力（p(x') = x）からのサンプリングによるデータ拡張は、VAEで93.88 ± 0.08、IWAEで92.51 ± 0.07を達成し、DVAEを上回ったがDIWAEには及ばなかった。これは、ノイズ除去が単純な拡張よりも効果的であることを示している。
平均画像に基づくピクセル単位の汚染率を用いた場合、グローバル汚染率と比べて顕著な性能向上が得られなかった。これは、より洗練された汚染学習の手法が必要である可能性を示唆している。
提案されたノイズ除去変分下界は、ノイズが加わった入力において標準VAEの下界よりもタイトであり、より良い後方分布近似と汎化性能の向上を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。