QUICK REVIEW

[論文レビュー] Improved Variational Autoencoders for Text Modeling using Dilated Convolutions

Zichao Yang, Zhiting Hu|arXiv (Cornell University)|Feb 27, 2017

Topic Modeling参考文献 30被引用数 95

ひとこと要約

この論文は、テキストモデリングにおける分布変数オートエンコーダーのための膨張CNNデコーダを提案し、文脈と潜在表現の使用のバランスを取り、言語モデリングの改善と強力な半教師あり・教師なしの結果を達成している。

ABSTRACT

Recent work on generative modeling of text has found that variational auto-encoders (VAE) incorporating LSTM decoders perform worse than simpler LSTM language models (Bowman et al., 2015). This negative result is so far poorly understood, but has been attributed to the propensity of LSTM decoders to ignore conditioning information from the encoder. In this paper, we experiment with a new type of decoder for VAE: a dilated CNN. By changing the decoder's dilation architecture, we control the effective context from previously generated words. In experiments, we find that there is a trade off between the contextual capacity of the decoder and the amount of encoding information used. We show that with the right decoder, VAE can outperform LSTM language models. We demonstrate perplexity gains on two datasets, representing the first positive experimental result on the use VAE for generative modeling of text. Further, we conduct an in-depth investigation of the use of VAE (with our new decoding architecture) for semi-supervised and unsupervised labeling tasks, demonstrating gains over several strong baselines.

研究の動機と目的

テキスト用のLSTMデコーダーを用いた場合のVAEトレーニング崩壊を動機づけ、対処する。
デコーダの文脈容量を制御するための膨張CNNデコーダを提案する。
デコーダ容量が潜在表現への依存と言語モデリング性能に与える影響を経験的に評価する。
半教師付き分類と教師なしクラスタリングの改善を示す。
エンコーダの初期化とモデルサイズの変化を検討し、VAE性能を最適化する。

提案手法

潜在ベクトルzで条件付けされた膨張CNNデコーダとLSTMエンコーダを備えた変分オートエンコーダーを使用する。
効果受容野が異なる膨張CNN構成（SCNN、MCNN、LCNN、VLCNN）を探索し、文脈容量を制御する。
後方崩壊を緩和するためのKLアニーリングで訓練し、デコーダに残差接続を使用する。
VAE性能を高めるために、事前学習済みLSTM言語モデルのパラメータでエンコーダを初期化することを検討する。
フレームワークを半教師付き分類（離散ラベルをサンプリングするGumbel-Softmaxを使用）と無監督クラスタリング（U(x)目的）へ拡張する。
負の対数尤度(NLL)とパープレキシティ(PPL)を報告し、NLLを再構成損失とKL発散に分解する。

実験結果

リサーチクエスチョン

RQ1膨張CNNデコーダーはテキストモデリングにおいてLSTMデコーダーで見られるVAEトレーニング崩壊を緩和できるか？
RQ2デコーダの文脈容量を変えると潜在変数への依存と全体の言語モデリング性能にどう影響するか？
RQ3膨張CNN-VAEは強力なベースラインと比べて半教師付き分類と教師なしクラスタリングで利点をもたらすか？
RQ4エンコーダ初期化はテキストのVAE性能にどのような影響を与えるか？

主な発見

モデル	サイズ	NLL (KL)	PPL
LSTM-LM	<i>	362.7	42.6
LSTM-VAE ∗∗	<i>	372.2 (0.3)	47.0
LSTM-VAE ∗∗ + init	<i>	368.9 (4.7)	46.4
SCNN-LM	15	371.2	46.6
SCNN-VAE	15	365.6 (9.4)	43.9
SCNN-VAE + init	15	363.7 (10.3)	43.1
MCNN-LM	63	366.5	44.3
MCNN-VAE	63	363.0 (6.9)	42.8
MCNN-VAE + init	63	360.7 (9.1)	41.8
LCNN-LM	125	363.5	43.0
LCNN-VAE	125	361.9 (6.4)	42.3
LCNN-VAE + init	125	359.1 (7.6)	41.1
VLCNN-LM	187	364.8	43.7
VLCNN-VAE	187	364.3 (2.7)	43.4
VLCNN-VAE + init	187	364.7 (2.2)	43.5

文脈を制御した膨張CNNデコーダは、デコーダの文脈容量がバランスしている場合、LSTM言語モデルより言語モデリングを改善する。
YahooでLCNNデコーダを用いたVAEはNLL 333.9 (PPL 63.9) を達成し、LSTM-LM (NLL 334.9, PPL 66.2)を上回る。
エンコーダ初期化はLCNN-VAEの性能をさらに向上させる (NLL 332.1, PPL 63.9)。
YelpではLCNN-VAEがLSTM-LMを改善 (NLL 359.1 vs 362.7; PPL 41.1 vs 42.6)。
小さめの文脈を持つデコーダ（例：SCNN-VAE）はKL項を大きくし潜在利用を改善する一方、非常に大きいデコーダ（例：VLCNN）は利得が減衰し過学習の可能性がある。
半教師付き設定では、SCNN-VAE-Semiが一部設定で最高の分類精度を達成し、LCNN-VAE-Semiは強力なNLL性能を達成する；エンコーダ初期化は一般に効果的。
SCNN-VAE-Unsup + initは報告されたベースラインの中でYahooのクラスタリング精度で最高を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。