[论文解读] Generating Sentences by Editing Prototypes
本文提出一种先原型后编辑的生成语言模型,通过从训练语料库中采样一个句子,再利用基于潜在编辑向量的神经编辑器对其进行修改,从而在降低困惑度的同时提升人工评分的生成质量。该模型在Yelp数据集和One Billion Word Benchmark上分别实现了13点和7点的困惑度降低,同时通过编辑向量实现了可解释的语义编辑。
We propose a new generative model of sentences that first samples a prototype sentence from the training corpus and then edits it into a new sentence. Compared to traditional models that generate from scratch either left-to-right or by first sampling a latent sentence vector, our prototype-then-edit model improves perplexity on language modeling and generates higher quality outputs according to human evaluation. Furthermore, the model gives rise to a latent edit vector that captures interpretable semantics such as sentence similarity and sentence-level analogies.
研究动机与目标
- 解决自回归语言模型在生成多样化、非通用句子方面的局限性。
- 通过利用训练数据中高质量、语法正确的原型句子来提升生成质量。
- 学习一个解耦的、可解释的编辑向量,以捕捉句子之间的语义变换。
- 通过可微分的神经编辑器实现可控的、语义上有意义的编辑。
- 与标准变分自编码器相比,提供更结构化且语义平滑的潜在空间用于文本生成。
提出的方法
- 该模型通过从训练语料库中均匀采样一个原型句子来生成句子。
- 神经编辑器通过关注原型句子并基于从先验分布中采样的潜在编辑向量,生成新句子。
- 通过最大化边缘似然的下界近似进行模型训练,使用词汇相似度来限制原型的求和范围。
- 使用局部敏感哈希(LSH)高效识别词汇上相似的句子对,以实现可扩展的训练。
- 使用证据下界(ELBO)来近似对编辑向量的期望,从而通过反向传播实现端到端训练。
- 引入一个特殊的“空”原型以平滑模型,并避免在分布外或不相似的测试句子上出现零似然。
实验结果
研究问题
- RQ1一种通过编辑训练数据中原型的生成模型,是否能在困惑度和生成质量上优于自回归模型?
- RQ2所学习的编辑向量能否捕捉可解释的语义变换,如句子相似性与类比关系?
- RQ3与标准变分自编码器相比,原型-后编辑方法是否能实现更受控且语义上更有意义的文本生成?
- RQ4在训练神经编辑器时,词汇相似度作为语义相似度的代理是否有效?
- RQ5该模型是否能在保持语法正确性和多样性的同时,泛化到训练数据中的精确示例之外?
主要发现
- 与基线语言模型相比,原型-后编辑模型在Yelp语料库上将困惑度降低了13点,在One Billion Word Benchmark上降低了7点。
- 人工评估显示,该模型生成的句子质量高于标准自回归语言模型。
- 潜在编辑向量成功捕捉了句子相似性,并实现了局部可控的文本生成,在这些任务上优于标准的句子变分自编码器。
- 通过应用一系列编辑操作,模型能够执行语义随机游走,展示了在语义空间中的平滑遍历能力。
- 即使仅使用少量“空”原型进行平滑处理,也能显著降低罕见或不相似测试句子的困惑度。
- 训练集中词汇相似的句子对在语义上也相似,验证了在训练目标中使用词汇相似度作为语义结构代理的合理性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。