QUICK REVIEW

[论文解读] Language Generation with Recurrent Generative Adversarial Networks without Pre-training

Ofir Press, Amir Bar|arXiv (Cornell University)|Jun 5, 2017

Generative Adversarial Networks and Image Synthesis参考文献 19被引用 90

一句话总结

本文从头开始训练基于 RNN 的 GAN 用于语言生成，采用课程学习、变长训练和教师帮助以生成连贯文本且无需预训练。它在 CNN 基线模型上显示出改进，并能对更长的序列进行泛化。

ABSTRACT

Generative Adversarial Networks (GANs) have shown great promise recently in image generation. Training GANs for language generation has proven to be more difficult, because of the non-differentiable nature of generating text with recurrent neural networks. Consequently, past work has either resorted to pre-training with maximum-likelihood or used convolutional networks for generation. In this work, we show that recurrent neural networks can be trained to generate text with GANs from scratch using curriculum learning, by slowly teaching the model to generate sequences of increasing and variable length. We empirically show that our approach vastly improves the quality of generated sequences compared to a convolutional baseline.

研究动机与目标

激励在没有预训练的情况下使用 GAN 学习语言生成，以克服暴露偏差和严格的 ML 损失。
证明在 Improved Wasserstein GAN 目标下，可以端到端训练一个 RNN 生成器和判别器。
表明带有递增序列长度的课程学习有助于稳定训练和生成文本的质量。
评估诸如 Variable Length 和 Teacher Helping 之类的扩展如何改善序列质量和泛化能力。

提出的方法

在生成器和判别器中使用基于 GRU 的 RNN，并对输入进行连续松弛以实现可微分。
在 Improved Wasserstein GAN 目标下进行训练，判别器提供一个标量分数。
在训练过程中使用课程学习以逐步增加生成序列的长度。
结合 Variable Length 训练，在一个批次内使用多种长度的序列。
通过以短的真实前缀为条件引导最终字符，引入 Teacher Helping。
尝试从 N(0,10) 抽取的噪声，并让生成器的更新频率高于判别器以稳定学习。

实验结果

研究问题

RQ1是否可以在没有预训练的情况下，使用 GAN 目标从零开始训练基于 RNN 的生成器以生成连贯文本？
RQ2与 CNN 基线相比，课程学习、变 length 训练和教师帮助是否能提升 GAN 生成文本的质量和连贯性？
RQ3该模型是否能推广到训练中未见过的更长序列？
RQ4训练动态（生成器/判别器更新比、噪声尺度）对文本生成质量有何影响？

主要发现

基于 RNN 的 GAN 可以在使用 Improved Wasserstein GAN 目标的情况下从头学习生成自然语言。
课程学习、变长和教师帮助的结合得到最佳结果，在与保留数据的词级 n-gram 相似性上超过基线 CNN 模型。
CL+VL+TH 模型在长度为 64 的序列中，生成文本中有 3.8% 的词 4-grams 同时出现在保留测试集。
仅课程学习并不足够；变长和教师帮助对性能提升很重要。
在长度至 32 的序列上训练的模型能泛化到长度为 64 的序列，性能下降很小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。