Skip to main content
QUICK REVIEW

[論文レビュー] Adversarially Regularized Autoencoders

Junbo Zhao, Yoon Kim|arXiv (Cornell University)|Jun 13, 2017
Generative Adversarial Networks and Image Synthesis参考文献 50被引用数 38
ひとこと要約

本稿では、潜在空間における学習済み事前分布を用いて変分オートエンコーダーと敵対的正則化を組み合わせることで、テキストなどの離散的系列データに対して深層潜在変数モデルを学習するためのアプローチ、敵対的正則化オートエンコーダー(ARAE)を提案する。この手法はワッサースタインオートエンコーダーの枠組みに従い、全変動距離の上界を最小化することで、滑らかで制御可能なテキストの生成および操作を可能にし、非対応テキストスタイル転送において最先端の結果を達成する。

ABSTRACT

Deep latent variable models, trained using variational autoencoders or generative adversarial networks, are now a key technique for representation learning of continuous structures. However, applying similar methods to discrete structures, such as text sequences or discretized images, has proven to be more challenging. In this work, we propose a flexible method for training deep latent variable models of discrete structures. Our approach is based on the recently-proposed Wasserstein autoencoder (WAE) which formalizes the adversarial autoencoder (AAE) as an optimal transport problem. We first extend this framework to model discrete sequences, and then further explore different learned priors targeting a controllable representation. This adversarially regularized autoencoder (ARAE) allows us to generate natural textual outputs as well as perform manipulations in the latent space to induce change in the output space. Finally we show that the latent representation can be trained to perform unaligned textual style transfer, giving improvements both in automatic/human evaluation compared to existing methods.

研究の動機と目的

  • テキスト系列のような離散的構造に対して深層潜在変数モデルを学習する課題に取り組むこと。特に、標準的なVAEがしばしば無条件言語モデルに崩壊する問題を解決すること。
  • 離散データにおけるGANの限界を克服し、非微分可能な目的関数を避けるために、敵対的正則化を施した連続的潜在空間を用いること。
  • 潜在空間における柔軟でパラメータ化された事前分布を学習することで、潜在空間における制御可能な生成および操作を可能にすること。
  • 対応する並列データを必要とせずに、感情やトピックの転送などの非対応テキストスタイル転送タスクにおける性能を向上させること。
  • ワッサースタインオートエンコーダーの枠組みに基づいてモデルを形式化し、最適輸送理論および分布の整合性に基づく理論的基盤を提供すること。

提案手法

  • モデルは、離散的入力(例:文)を連続的潜在コードに写像する決定的エンコーダーと、コードから入力を再構築する条件付きデコーダー(例:RNN)を用いる。
  • エンコーダーの出力分布と一致するように、ノイズを潜在コードに写像する生成ネットワークを用いた学習済み事前分布を導入する。
  • 再構築損失(交差エントロピー)と、ワッサースタイン距離に基づく敵対的損失を組み合わせた訓練目的を採用し、データ分布とモデル分布の間の全変動距離の上界を最小化する。
  • 複数の事前分布タイプをサポートするフレームワークを提供する:固定ガウス分布、学習済みGANベースの事前分布、感情やトピックなどの属性を分離する転送ベースの事前分布。
  • 生成器(事前分布)とクリティックの間でミニマックス最適化を用い、エンドツーエンドに訓練する。クリティックは、実際の潜在コードと生成されたコードを区別する。
  • 潜在空間における補間とベクトル演算を用いて、感情やトピックの変更など、意味的に整合性のある文の操作を生成する。

実験結果

リサーチクエスチョン

  • RQ1潜在空間における敵対的正則化は、離散的系列のためのオートエンコーダーの訓練安定性と表現品質を向上させるか?
  • RQ2潜在空間における学習済みGANベースの事前分布は、固定事前分布と比較して、テキスト生成におけるより良い分離性と制御可能性を実現するか?
  • RQ3ARAEモデルは、並列データを必要とせずに、感情転送などの非対応テキストスタイル転送をどの程度効果的に行えるか?
  • RQ4ワッサースタインオートエンコーダーの枠組みは、離散的潜在変数モデルに対して理論的に妥当かつ効果的な目的関数を提供するか?
  • RQ5異なる事前分布設計(ガウス分布、学習済み、転送ベース)は、生成された系列の品質および制御可能性にどのように影響するか?

主な発見

  • ARAEモデルは、非対応感情転送タスクにおいて最先端の性能を達成し、自動評価および人的評価の両面で先行手法を上回る。
  • 潜在空間における補間とベクトル演算により、内容を保持したまま感情を変更するなど、意味的に整合性のある文の操作が可能である。
  • モデルは滑らかで分離された潜在空間を学習し、多様なテキスト構造にわたり一貫性があり制御可能な生成を可能にする。
  • 潜在空間におけるGANベースの学習済み事前分布の使用は、標準ガウス分布などの固定事前分布と比較して、生成品質と多様性を顕著に向上させる。
  • 理論的分析により、交差エントロピー再構築損失がモデル分布とデータ分布の間の全変動距離の上界を規定することが示され、妥当な最適化目的関数であることが裏付けられる。
  • バイナリズドMNISTおよび短いテキスト系列における実験により、モデルが多様で高品質なサンプルを生成し、入力空間を効果的にカバーしていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。