[论文解读] Neural Text Generation with Unlikelihood Training
论文引入不可能性训练以减少神经文本生成的退化,改进重复和令牌分布,同时保持困惑度,并在包括束搜索的解码策略上的标准似然训练之上显示出优势。
Neural text generation is a key tool in natural language applications, but it is well known there are major problems at its core. In particular, standard likelihood training and decoding leads to dull and repetitive outputs. While some post-hoc fixes have been proposed, in particular top-$k$ and nucleus sampling, they do not address the fact that the token-level probabilities predicted by the model are poor. In this paper we show that the likelihood objective itself is at fault, resulting in a model that assigns too much probability to sequences containing repeats and frequent words, unlike those from the human training distribution. We propose a new objective, unlikelihood training, which forces unlikely generations to be assigned lower probability by the model. We show that both token and sequence level unlikelihood training give less repetitive, less dull text while maintaining perplexity, giving superior generations using standard greedy or beam search. According to human evaluations, our approach with standard beam search also outperforms the currently popular decoding methods of nucleus sampling or beam blocking, thus providing a strong alternative to existing techniques.
研究动机与目标
- 激发并分析使用最大似然训练的神经文本生成中的退化。
- 提出一种训练目标(不可能性/不可能性惩罚)以惩罚不太可能出现或重复的词标记。
- 开发令牌级和序列级的不可能性损失以提高生成质量。
- 展示在不同解码方法下对重复、令牌分布和人工评价的改进。
- 展示对像 GPT-2 这样的大型模型进行微调的适用性,并给出实用的训练更新。
提出的方法
- 定义在下一个标记预测过程中惩罚负向候选令牌的不可能性损失。
- 在令牌级别将似然更新与不可能性更新结合(L_UL-token)。
- 使用先前上下文中的令牌作为负候选,抑制重复和过度使用常见令牌。
- 通过对模型生成的续写应用惩罚引入序列级不可能性(L_ULS),以解决训练-测试分布不匹配的问题。
- 用 L_UL-token 和 L_UL-seq 损失的混合进行微调,以实现高效改进。
- 证明效率:序列级微调在大约 1,500 次更新内就能有效。
实验结果
研究问题
- RQ1相较于最大似然训练,不可能性训练是否能降低生成文本的重复和乏味?
- RQ2不可能性训练是否在提高生成质量的同时保持困惑度和令牌准确性?
- RQ3令牌级与序列级的不可能性目标是否提供互补收益,且能否在人类评估中超过现有解码修复(top-k、核采样、束阻止)?
- RQ4通过微调应用于大型基于Transformer的语言模型和预训练系统(如 GPT-2)时,不可能性训练是否有效?
- RQ5不同解码策略在不可能性训练模型上的生成质量如何相互作用?
主要发现
- 与MLE基线相比,不可能性训练在令牌级重复和序列级重复方面都能减少。
- 令牌级不可能性增加了下一个唯一令牌的数量并降低重复(wrep),同时困惑度或准确性没有显著下降。
- 序列级不可能性进一步显著减少重复(例如 seq-rep-4 明显降低)并产生更多唯一的后续令牌。
- 使用序列级不可能性微调(或结合令牌+序列)在人工评估中显著优于使用核采样或束阻止的似然训练模型。
- 该方法在确定性(贪婪/束搜索)和随机解码下都有效,并且可以通过相对较少的更新(约 1,500 次)改进现有的预训练模型。
- 使用不可能性目标对 GPT-2 进行微调在减少重复方面取得了可比的提升并保持语言建模质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。