[论文解读] MaskGAN: Better Text Generation via Filling in the______
MaskGAN 引入一个演员-评论家条件GAN,该模型在给定上下文的条件下填充缺失文本,相比PTB 和 IMDB 数据集上的标准ML训练基线,样本质量有所提升。
Neural text generation models are often autoregressive language models or seq2seq models. These models generate text by sampling words sequentially, with each word conditioned on the previous word, and are state-of-the-art for several machine translation and summarization benchmarks. These benchmarks are often defined by validation perplexity even though this is not a direct measure of the quality of the generated text. Additionally, these models are typically trained via maxi- mum likelihood and teacher forcing. These methods are well-suited to optimizing perplexity but can result in poor sample quality since generating text requires conditioning on sequences of words that may have never been observed at training time. We propose to improve sample quality using Generative Adversarial Networks (GANs), which explicitly train the generator to produce high quality samples and have shown a lot of success in image generation. GANs were originally designed to output differentiable values, so discrete language generation is challenging for them. We claim that validation perplexity alone is not indicative of the quality of text generated by a model. We introduce an actor-critic conditional GAN that fills in missing text conditioned on the surrounding context. We show qualitatively and quantitatively, evidence that this produces more realistic conditional and unconditional text samples compared to a maximum likelihood trained model.
研究动机与目标
- 推动在自回归和 seq2seq 文本生成器的验证困惑度之外提升样本质量的动机。
- 提出一个文本填充任务,在该任务中缺失的标记由周围上下文条件填充。
- 在判别器引导下,使用演员-评论家框架的强化学习训练一个生成器。
- 通过填充设置和评论家辅助来缓解文本GANs中常见的训练不稳定性和模式崩溃。
提出的方法
- 使用一个 seq2seq 生成器,填充基于过去和未来上下文条件的掩码标记。
- 训练一个判别器,在给定原始上下文时评估每个填充的标记以提供逐字级奖励。
- 采用演员-评论家强化学习目标,其中评论家提供基线以降低梯度方差。
- 将奖励定义为判别器的对数概率,并使用策略梯度进行优化。
- 在对填充任务进行对抗微调之前,先用最大似然语言模型进行预训练。
- 可选地对长序列和大词汇量采用课程式调整。
实验结果
研究问题
- RQ1具备逐字级判别器的文本填充任务是否能提供比传统 ML 训练模型更好的样本文本质量?
- RQ2演员-评论家训练设置是否能降低梯度方差并稳定基于GAN的文本生成?
- RQ3与 MaskMLE 相比,MaskGAN 在 PTB 和 IMDB 的条件和无条件文本生成中的表现如何?
- RQ4来自人类评估的哪些证据支持生成文本的真实感改进?
- RQ5受 BLEU 启发的指标和 n-gram 多样性指标如何反映 MaskGAN 的模式覆盖和样本质量?
主要发现
- 根据定性评估和一些定量指标,MaskGAN 生成的条件和无条件文本样本比最大似然训练模型更具真实感。
- 基于困惑度的生成样本度量并不总是与样本质量一致;在某些设置中,MaskGAN 的生成样本困惑度低于基线。
- 在人类评估中,IMDB 数据集上 MaskGAN 的样本在语法性、主题相关性和整体质量方面优于 MaskMLE。
- MaskGAN 显示出一定程度的模式崩溃,表现为独特四元组数量减少,但整体生成样本在各模型之间仍然多样。
- 事先训练和引入 critic 显著降低了梯度方差并提升了训练稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。