QUICK REVIEW

[论文解读] Transformer-based Conditional Variational Autoencoder for Controllable Story Generation

Le Fang, Tao Zeng|arXiv (Cornell University)|Jan 4, 2021

Topic Modeling参考文献 45被引用 41

一句话总结

论文通过在 Transformer 架构之上嵌入一个 CVAE，将 GPT-2 作为解码器，以实现可控、基于提示的长篇故事生成，同时保持较高的生成质量。

ABSTRACT

We investigate large-scale latent variable models (LVMs) for neural story generation -- an under-explored application for open-domain long text -- with objectives in two threads: generation effectiveness and controllability. LVMs, especially the variational autoencoder (VAE), have achieved both effective and controllable generation through exploiting flexible distributional latent representations. Recently, Transformers and its variants have achieved remarkable effectiveness without explicit latent representation learning, thus lack satisfying controllability in generation. In this paper, we advocate to revive latent variable modeling, essentially the power of representation learning, in the era of Transformers to enhance controllability without hurting state-of-the-art generation effectiveness. Specifically, we integrate latent representation vectors with a Transformer-based pre-trained architecture to build conditional variational autoencoder (CVAE). Model components such as encoder, decoder and the variational posterior are all built on top of pre-trained language models -- GPT2 specifically in this paper. Experiments demonstrate state-of-the-art conditional generation ability of our model, as well as its excellent representation learning capability and controllability.

研究动机与目标

使用潜变量模型来推动并实现可控、开放域的长文本生成。
将 CVAE 与基于 Transformer 的预训练骨干整合以提升可控性，同时不牺牲生成质量。
研究潜在表示如何在基于提示的长篇故事创作中引导生成。

提出的方法

构建一个以 Transformer 为基础的 CVAE，使用 GPT-2 解码器，未遮蔽的双向编码器从 GPT-2 层初始化。
将潜在编码 z 表示为具有可学习均值和对数方差的等方差高斯分布。
通过多种潜在注入策略（输入相加、伪自注意力、软最大头投影）将潜在编码注入解码器。
采用 CVAE 的 ELBO 目标进行训练，并使用循环退火计划以缓解后验坍缩。
使用一个注意力平均块将可变长度的编码器输出汇总为一个单一的潜在向量。

实验结果

研究问题

RQ1 Transformer 基于 CVAE 的模型在条件故事生成方面是否能够达到或超过非潜在或纯 Transformer 基线的质量？
RQ2学习分布式潜在空间是否能改善长篇故事中的可控性和提示表示？
RQ3在三种提出的潜在编码注入方法中，哪一种在长文本上能产生最佳的生成性能和可控性？
RQ4模型在像 WritingPrompts 和 WikiPlots 这样的开放域长文本数据集上的扩展性如何？

主要发现

基于 Transformer 的 CVAE 在 WritingPrompts 和 WikiPlots 上总体上具有更好或相当的困惑度和 ROUGE 分数，表明具备较强的条件生成能力。
学习到的潜在表示实现了可控性；潜在编码在与提示结合时可以引导生成。
在潜在注入方法中，CVAE-① 和 CVAE-②的表现相对接近，CVAE-③在实际的长文本任务中通常效果较差。
以 GPT-2 为基础的预训练骨干模型（PSA、FIST、CVAE）在开放域长文本任务中显示出明显的性能提升，相较于以融合为基础的基线。
定性分析表明潜在编码在潜在空间中能对提示进行有意义的聚类，并能够引导生成朝向与提示一致的内容。
潜在变量 Transformer 模型展示了在长篇故事创作中的可控性，同时不牺牲生成质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。