Skip to main content
QUICK REVIEW

[論文レビュー] Transformer-based Conditional Variational Autoencoder for Controllable Story Generation

Le Fang, Tao Zeng|arXiv (Cornell University)|Jan 4, 2021
Topic Modeling参考文献 45被引用数 41
ひとこと要約

この論文は、GPT-2をデコーダとして用いたCVAEをTransformerアーキテクチャ上に埋め込み、プロンプトに条件付けられた長文ストーリ生成を実現する制御可能性を高める潜在変数モデリングを再活性化する一方、強い生成品質を維持する。

ABSTRACT

We investigate large-scale latent variable models (LVMs) for neural story generation -- an under-explored application for open-domain long text -- with objectives in two threads: generation effectiveness and controllability. LVMs, especially the variational autoencoder (VAE), have achieved both effective and controllable generation through exploiting flexible distributional latent representations. Recently, Transformers and its variants have achieved remarkable effectiveness without explicit latent representation learning, thus lack satisfying controllability in generation. In this paper, we advocate to revive latent variable modeling, essentially the power of representation learning, in the era of Transformers to enhance controllability without hurting state-of-the-art generation effectiveness. Specifically, we integrate latent representation vectors with a Transformer-based pre-trained architecture to build conditional variational autoencoder (CVAE). Model components such as encoder, decoder and the variational posterior are all built on top of pre-trained language models -- GPT2 specifically in this paper. Experiments demonstrate state-of-the-art conditional generation ability of our model, as well as its excellent representation learning capability and controllability.

研究の動機と目的

  • 潜在変数モデルを用いて、制御可能なオープンドメイン長文生成を動機づけ、実現する。
  • 生成品質を犠牲にせず制御性を向上させるため、Transformerベースの事前学習バックボーンとCVAEを統合する。
  • プロンプトに条件付けされた長文ストーリーテリングを潜在表現がどのように導くかを研究する。

提案手法

  • GPT-2のデコーダとGPT-2層から初期化されたマスクなし双方向エンコーダを備えたTransformerベースのCVAEを構築する。
  • 潜在コードzを、学習可能な平均と対数分散を持つ等方ガウス分布として表現する。
  • 潜在コードをデコーダに複数の潜在注入戦略(入力追加、疑似自己注意、ソフトマックスヘッドへの射影)を介して注入する。
  • CVAEのELBO目的関数で学習し、後方崩壊を軽減するため循環的アニーリングスケジュールを用いる。
  • 可変長のエンコーダ出力を1つの潜在ベクトルに要約するため、注意機構を平均化するブロックを用いる。

実験結果

リサーチクエスチョン

  • RQ1TransformerベースのCVAEは、非潜在またはプレーンなトランスフォーマーのベースラインと比べて、条件付きストーリ生成の品質で競争力があるか、または上回るか?
  • RQ2分布可能な潜在空間を学習することは、長文ストーリーテリングにおける制御性とプロンプトの表現力を向上させるか?
  • RQ3提案された3つの中で、どの潜在コード注入法が長文生成の性能と制御性を最も高くするか?
  • RQ4WritingPromptsやWikiPlotsのようなオープンドメイン長文データセットに対して、モデルはどれほどスケールするか?

主な発見

  • TransformerベースのCVAEは、WritingPromptsおよびWikiPlotsでベースラインと比較して一般的により良いまたは同等の困惑度とROUGEスコアを達成し、強い条件付き生成性能を示している。
  • learned latent representations enable controllability; latent codes can steer generation when combined with prompts.
  • 学習された潜在表現は制御性を可能にする;潜在コードはプロンプトと組み合わせると生成を操ることができる。
  • 潜在注入法のうち、CVAE-①とCVAE-②は同程度の性能を発揮し、CVAE-③は長文では実用的には一般的に効果が低い。
  • 事前学習済みバックボーン(GPT-2)に基づくモデル(PSA、FIST、CVAE)は、オープンドメイン長文タスクにおいてフュージョンベースのベースラインを上回る強力な性能向上を示す。
  • 定性的分析は、潜在コードが潜在空間内でプロンプトを意味的にクラスタリングし、プロンプト整合の内容へ生成を導くことができることを示している。
  • 潜在変数を持つTransformerモデルは、生成品質を損なうことなく長文ストーリーテリングにおける制御性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。