Skip to main content
QUICK REVIEW

[論文レビュー] Topic-Guided Variational Autoencoders for Text Generation

Wenlin Wang, Zhe Gan|arXiv (Cornell University)|Mar 17, 2019
Topic Modeling参考文献 59被引用数 57
ひとこと要約

Topic-Guided Variational Autoencoder (TGVAE) を導入。トピック条件付きガウス混合 priors と Householder フローを用いて、無条件および条件付きのテキスト生成の両方を改善します。データセット全体で perplexity/BLEU の優位性とトピックコヒーレンスの改善を実証します。

ABSTRACT

We propose a topic-guided variational autoencoder (TGVAE) model for text generation. Distinct from existing variational autoencoder (VAE) based approaches, which assume a simple Gaussian prior for the latent code, our model specifies the prior as a Gaussian mixture model (GMM) parametrized by a neural topic module. Each mixture component corresponds to a latent topic, which provides guidance to generate sentences under the topic. The neural topic module and the VAE-based neural sequence module in our model are learned jointly. In particular, a sequence of invertible Householder transformations is applied to endow the approximate posterior of the latent code with high flexibility during model inference. Experimental results show that our TGVAE outperforms alternative approaches on both unconditional and conditional text generation, which can generate semantically-meaningful sentences with various topics.

研究の動機と目的

  • 単純なガウス priors を超えたテキスト生成を導くためのトピック認識型潜在表現の動機付け。
  • ニューラル・トピック・モデルを統合して潜在コード上のガウス混合 prior をパラメータ化。
  • Householder flows による後部分の崩壊を緩和し後方の柔軟性を高める。
  • 無条件生成と要約などの条件付きタスクの両方での改善を実証。

提案手法

  • 潜在 z のガウス混合 prior を定義し、各成分をニューラル・トピック・モデル(NTM)を介して学習されたトピックに対応させる。
  • z を条件とした文をデコードするシーケンス・モデル(NSM)を用い、GRU ベースのデコーダを使用。
  • Householder flows を用いて可逆・体積保持変換を組み合わせることで、q(z|y) の柔軟な近似後分布を構築。
  • トピックモデルの項とシーケンスモデルの項を組み合わせた tractable ELBO を導出し、GMM 同士の KL に対する上界を用いて訓練を可能にする。
  • デコーダを元文 x で条件付けし、トピック指針を組み込むことでテキスト要約へモデルを拡張する。
  • 学習したトピック間の多様性を促すトピック多様性正則化子を含める。

実験結果

リサーチクエスチョン

  • RQ1トピック誘導型ガウス混合 priors は潜在空間構造と文の品質を改善できるか。
  • RQ2ニューラル・トピック・モデルを VAE に統合することで posterior 崩壊を減らし生成の多様性と一貫性を改善できるか。
  • RQ3Householder flow は TGVAE における後方の柔軟性と生成性能にどのように影響するか。
  • RQ4TGVAE は無条件生成と要約のような条件付きタスクの両方を改善できるか。

主な発見

  • TGVAE は APNEWS、IMDB、BNC データセットで他のベースラインよりも低い perplexity 上界を達成。
  • トピック数を増やすと、生成文の BLEU ベースおよび自己 BLEU 多様性指標が一般に向上。
  • Householder flows(HF)は後部分推定を強化し、適切な flow depth K により標準的な VAE ベースラインより生成品質を改善。
  • トピック誘導生成は GMM priors で、APNEWS、IMDB、BNC でより良いトピックコヒーレンス指標(NPMI)を示す。
  • 要約では Seq2Seq フレームワークにトピック指針を取り入れることで、意味的トピック構造を活用して生成が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。