[论文解读] A Latent Variable Recurrent Neural Network for Discourse Relation Language Models
本文提出了一种潜在变量循环神经网络,通过离散潜在变量联合建模词序列与相邻句子之间的语篇关系。通过同时在词预测和语篇关系分类上进行训练,该模型在宾夕法尼亚语篇树库的隐性语篇关系分类任务以及Switchboard数据集的对话行为分类任务上均超越了当前最先进方法,同时通过潜在关系的边缘化,作为语篇感知的语言模型,表现优于标准基线模型。
This paper presents a novel latent variable recurrent neural network architecture for jointly modeling sequences of words and (possibly latent) discourse relations between adjacent sentences. A recurrent neural network generates individual words, thus reaping the benefits of discriminatively-trained vector representations. The discourse relations are represented with a latent variable, which can be predicted or marginalized, depending on the task. The resulting model can therefore employ a training objective that includes not only discourse relation classification, but also word prediction. As a result, it outperforms state-of-the-art alternatives for two tasks: implicit discourse relation classification in the Penn Discourse Treebank, and dialog act classification in the Switchboard corpus. Furthermore, by marginalizing over latent discourse relations at test time, we obtain a discourse informed language model, which improves over a strong LSTM baseline.
研究动机与目标
- 开发一种统一的神经网络架构,联合建模相邻句子之间的词序列与语篇关系。
- 通过引入潜在变量以处理未观察或部分观察的语篇结构,解决先前神经模型仅依赖标注语篇关系的局限性。
- 通过在训练过程中同时利用词预测与语篇关系目标,提升语篇关系分类与语言建模的性能。
- 在测试阶段实现对潜在语篇关系的边缘化,从而构建一种语篇感知的语言模型,其性能优于标准基线模型。
提出的方法
- 该模型使用循环神经网络(RNN)生成词语,其隐藏状态由先前词语和上下文信息推导得出。
- 相邻句子之间的语篇关系被建模为离散潜在变量,在训练和推理过程中可选择预测或边缘化处理。
- 该模型通过最大化词语与语篇关系的联合似然进行训练,从而同时受益于语言建模与语篇分类目标。
- 在推理过程中对潜在语篇变量进行求和,使模型无需在测试时依赖显式的语篇标注,即可作为语篇感知的语言模型运行。
- 该架构集成了判别性训练的词嵌入与条件softmax输出层以进行词预测,RNN隐藏状态通过非线性变换进行更新。
- 该框架在Theano、Torch和CNTK等标准深度学习工具包中易于实现,仅需对标准RNN进行极少修改。
实验结果
研究问题
- RQ1神经网络能否通过将语篇关系视为潜在变量,联合学习词预测与语篇关系分类?
- RQ2与仅在标注关系上进行训练的模型相比,将语篇结构作为潜在变量引入,能否提升隐性语篇关系分类的性能?
- RQ3在测试阶段对潜在语篇关系进行边缘化,是否能产生比忽略语篇结构的普通RNN更优的语言模型?
- RQ4与仅在语篇关系上训练的模型相比,同时在词预测与语篇关系目标上进行训练,能否显著提升泛化能力?
- RQ5该方法是否可扩展至部分标注数据,从而在低资源或大规模语篇建模任务中实现性能提升?
主要发现
- 该模型在宾夕法尼亚语篇树库的隐性语篇关系分类任务上达到最先进性能,优于先前的神经网络与基于特征的方法。
- 在Switchboard语料库的对话行为分类任务上,该模型也取得了最先进结果,表明其在各类语篇任务中具有强大的泛化能力。
- 通过在测试阶段对潜在语篇关系进行边缘化,该模型生成了一种语篇感知的语言模型,其困惑度低于强大的LSTM基线模型。
- 该模型在训练过程中同时受益于词预测与语篇关系监督,相比仅依赖标注语篇关系的模型,其表征学习能力得到显著提升。
- 使用离散潜在变量相比需要复杂变分推断的连续潜在变量模型,简化了训练与推理过程。
- 该架构可轻松适配现有深度学习框架,对标准RNN的修改极少,具有广泛的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。