[论文解读] DP-GAN: Diversity-Promoting Generative Adversarial Network for Generating Informative and Diversified Text
DP-GAN 使用基于语言模型的判别器对生成文本中的新颖性给予奖励,在评测和对话生成中相较重复性基线,促进多样性和信息性。
Existing text generation methods tend to produce repeated and "boring" expressions. To tackle this problem, we propose a new text generation model, called Diversity-Promoting Generative Adversarial Network (DP-GAN). The proposed model assigns low reward for repeatedly generated text and high reward for "novel" and fluent text, encouraging the generator to produce diverse and informative text. Moreover, we propose a novel language-model based discriminator, which can better distinguish novel text from repeated text without the saturation problem compared with existing classifier-based discriminators. The experimental results on review generation and dialogue generation tasks demonstrate that our model can generate substantially more diverse and informative text than existing baselines. The code is available at https://github.com/lancopku/DPGAN
研究动机与目标
- 解决来自标准的MLE训练生成器的重复、单调文本问题。
- 通过对抗性强化学习促进生成文本的多样性和信息性。
- 提出一个基于语言模型的判别器以提供非饱和的奖励。
- 在评论和对话生成任务中展示提高的多样性和相关性。
提出的方法
- 使用分层的序列到序列生成器来产生多句文本。
- 采用基于语言模型的判别器,其输出以交叉熵作为奖励,而非二元分类器。
- 从判别器输出计算句级和词级奖励。
- 使用交叉熵奖励通过策略梯度对生成器进行训练。
- 在对抗训练之前对生成器和判别器进行预训练。
- 在词级别利用蒙特卡罗自由奖励计算以提高效率。
实验结果
研究问题
- RQ1基于语言模型的判别器是否能提供非饱和、信息丰富的奖励以鼓励新颖性?
- RQ2将句级奖励和词级奖励结合是否比单独使用任一时能带来更高的多样性和信息性?
- RQ3在评论和对话生成的多样性与相关性方面,DP-GAN 与 MLE、PG-BLEU、SeqGAN 有何差异?
- RQ4DP-GAN 生成的文本是否更贴近真实世界的数据分布,尤其是对低频词?
主要发现
| 数据集 | 令牌 | Dist-1 | Dist-2 | Dist-3 | Dist-S |
|---|---|---|---|---|---|
| Yelp | DP-GAN(SW) | 438.6K | 3.4K | 22.3K | 49.6K |
| Yelp | DP-GAN(S) | 438.6K | 1.7K | 7.5K | 15.7K |
| Yelp | DP-GAN(W) | 271.9K | 2.8K | 14.8K | 29.0K |
| Amazon | DP-GAN(SW) | 383.6K | 1.9K | 11.7K | 26.3K |
| Amazon | DP-GAN(S) | 467.6K | 0.8K | 3.6K | 7.6K |
| Amazon | DP-GAN(W) | 279.4K | 1.6K | 8.9K | 18.4K |
| Dialogue | DP-GAN(SW) | 97.3K | 2.1K | 10.8K | 19.1K |
| Dialogue | DP-GAN(S) | 112.2K | 1.5K | 5.2K | 8.5K |
| Dialogue | DP-GAN(W) | 79.4K | 1.9K | 7.7K | 11.4K |
- DP-GAN 在自动多样性指标(不同的uni、bi、tri-grams 及句子数)上显著优于基线。
- 在人类评估中,DP-GAN 在多样性和相关性上表现更高,只有对流畅度的轻微下降。
- 结合的奖励(句级加词级)比单独使用任一奖励时产生更高的多样性和更长的文本。
- 基于语言模型的判别器避免奖励饱和,更能将新颖文本与重复文本区分开。
- 在 DP-GAN 下生成的数据分布更接近真实世界的分布,包括低频词。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。