[论文解读] Language as a Latent Variable: Discrete Generative Models for Sentence Compression
该论文提出一种变分自编码器,其潜在变量为从预训练语言模型中采样的压缩句子,用于句子压缩。通过在有标签和无标签数据上联合训练生成模型(ASC)与判别模型(FSC),该方法在Gigaword句子压缩基准上实现了最先进性能,即使在使用远少于有监督模型的标注数据时,仍能超越后者。
In this work we explore deep generative models of text in which the latent representation of a document is itself drawn from a discrete language model distribution. We formulate a variational auto-encoder for inference in this model and apply it to the task of compressing sentences. In this application the generative model first draws a latent summary sentence from a background language model, and then subsequently draws the observed sentence conditioned on this latent summary. In our empirical evaluation we show that generative formulations of both abstractive and extractive compression yield state-of-the-art results when trained on a large amount of supervised data. Further, we explore semi-supervised compression scenarios where we show that it is possible to achieve performance competitive with previously proposed supervised models while training on a fraction of the supervised data.
研究动机与目标
- 开发一种深度生成模型用于句子压缩,将语言视为离散潜在变量。
- 通过变分自编码器框架结合监督与无监督学习,提升句子压缩性能。
- 通过生成模型对潜在摘要进行边缘化,利用大量无标签文本,实现半监督学习。
- 通过共享组件联合训练判别模型(FSC)与生成模型(ASC),提升模型泛化能力。
- 证明生成方法可在抽取式与生成式句子压缩任务中达到或超越最先进性能。
提出的方法
- 模型采用变分自编码器(VAE)框架,其中潜在变量为从预训练语言模型先验中采样的压缩句子。
- 推理网络(编码器-压缩器)使用指针网络,仅关注源句中的词语来生成抽取式压缩,从而减小搜索空间并提升训练稳定性。
- 重建网络(压缩器-解码器)使用带有软注意力机制的RNN解码器,从潜在压缩句子重建原始句子。
- 为解决离散采样不可微的问题,模型采用REINFORCE算法结合指针网络,以在训练期间降低梯度方差。
- 在判别模型FSC与生成模型ASC之间共享指针网络,以实现联合训练与半监督学习。
- FSC模型使用交叉熵目标函数在有标签数据上进行训练,而ASC模型则在无标签数据上使用变分下界进行训练。
实验结果
研究问题
- RQ1在VAE框架中将语言建模为离散潜在变量,是否能提升句子压缩性能?
- RQ2在大量无标签数据上训练的生成模型,是否能在仅使用少量有标签数据的情况下,达到与在小部分有标签数据上训练的判别模型相当的性能?
- RQ3联合训练生成模型(ASC)与判别模型(FSC)是否能比单独训练任一模型获得更好的泛化能力?
- RQ4基于指针网络的推理网络是否能在训练初期有效引导抽取式压缩的生成?
- RQ5通过VAE框架结合监督与无监督学习,对生成式与抽取式压缩任务的性能有何影响?
主要发现
- 在完整有监督数据集上训练时,联合ASC+FSC模型在Gigaword句子压缩数据集上的表现优于所有已发表结果。
- 该模型在仅使用少量标注数据的情况下,性能与完全有监督的最先进模型相当,展现出强大的半监督学习能力。
- 在推理网络中使用指针网络显著提升了训练初期的训练稳定性和样本质量。
- 共享的指针网络实现了从无标签数据到判别模型的有效知识迁移,提升了生成式摘要性能。
- 生成模型(ASC)在无监督条件下成功学习生成合理且通顺的压缩句子,得益于语言模型先验。
- 生成式压缩输出(ASC a 和 FSC a)比抽取式输出更流畅、更简洁,且联合模型生成的结果优于任一组件单独使用时的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。