QUICK REVIEW

[论文解读] Low-Resource Knowledge-Grounded Dialogue Generation

Xueliang Zhao, Wei Wu|arXiv (Cornell University)|Feb 24, 2020

Topic Modeling参考文献 46被引用 84

一句话总结

这篇论文提出了一个知识驱动对话生成的解耦、预训练解码器，通过将语言、上下文和知识 grounding 组件分离并在未 grounding 数据和纯文本上进行预训练，在仅使用部分训练数据的情况下实现了最新效果。

ABSTRACT

Responding with knowledge has been recognized as an important capability for an intelligent conversational agent. Yet knowledge-grounded dialogues, as training data for learning such a response generation model, are difficult to obtain. Motivated by the challenge in practice, we consider knowledge-grounded dialogue generation under a natural assumption that only limited training examples are available. In such a low-resource setting, we devise a disentangled response decoder in order to isolate parameters that depend on knowledge-grounded dialogues from the entire generation model. By this means, the major part of the model can be learned from a large number of ungrounded dialogues and unstructured documents, while the remaining small parameters can be well fitted using the limited training examples. Evaluation results on two benchmarks indicate that with only 1/8 training data, our model can achieve the state-of-the-art performance and generalize well on out-of-domain knowledge.

研究动机与目标

在资源有限、可用的带知识驱动训练数据有限的设置中，激发知识驱动对话系统的研究动机。
提出一个解耦的响应解码器，将知识驱动参数与模型的其他部分分离，以便大部分参数可从未 grounding 的对话和纯文本中学习。
证明对大规模未 grounding 数据进行大部分参数的预训练，在各基准上以极少量的带标签数据实现强性能，并能泛化到域外知识。

提出的方法

用两个独立的编码器对上下文和知识进行编码（上下文编码器和知识编码器）。
将解码器分解为三个独立训练的组件：语言模型、上下文处理器和知识处理器，由解码管理器协调。
使用基于 Gumbel-softmax 的解码管理器在训练和推理时选择每个单词由哪个组件预测。
用分层注意力机制在文档句子和单词上对知识处理器进行 grounding。
预训练：在 Reddit 数据上对语言模型/上下文编码器进行预训练；在 Wikipedia 上对知识编码器进行预训练；在小规模、领域特定的 grounding 数据上微调其余组件。
以最大似然训练，固定预训练参数以模拟低资源适配场景。

实验结果

研究问题

RQ1当只有少量带知识 grounding 的训练数据可用时，知识 grounding 的对话生成是否能被有效学习？
RQ2解耦解码器是否有助于利用大量未 grounding 的对话和纯文本进行预训练，从而提升低资源 grounding 的性能？
RQ3对不同组件进行预训练如何影响在域内知识与域外知识上的性能？

主要发现

模型	指标	PPL	F1	BLEU-1	BLEU-2	BLEU-3	BLEU-4	平均值	极值	贪婪
TMN (Dinan et al., 2019)	Test Seen	66.5	15.9	0.184	0.073	0.033	0.017	0.844	0.427	0.658
ITDD (Li et al., 2019)	Test Seen	17.8	16.2	0.158	0.071	0.040	0.025	0.841	0.425	0.654
FULL DATA	Test Seen	23.0	18.0	0.218	0.115	0.075	0.055	0.835	0.434	0.658
1/2 DATA	Test Seen	25.3	17.5	0.217	0.113	0.073	0.053	0.833	0.431	0.657
1/4 DATA	Test Seen	29.2	16.9	0.212	0.105	0.064	0.044	0.833	0.429	0.658
1/8 DATA	Test Seen	33.5	16.3	0.206	0.098	0.059	0.039	0.832	0.425	0.658
TMN (Dinan et al., 2019)	Test Unseen	103.6	14.3	0.168	0.057	0.022	0.009	0.839	0.408	0.645
ITDD (Li et al., 2019)	Test Unseen	44.8	11.4	0.134	0.047	0.021	0.011	0.826	0.364	0.624
FULL DATA	Test Unseen	25.6	16.5	0.207	0.101	0.062	0.043	0.828	0.422	0.628
1/2 DATA	Test Unseen	27.7	16.7	0.208	0.103	0.064	0.045	0.827	0.421	0.647
1/4 DATA	Test Unseen	32.4	16.2	0.205	0.098	0.060	0.041	0.828	0.423	0.650
1/8 DATA	Test Unseen	35.8	16.0	0.201	0.093	0.054	0.035	0.831	0.419	0.653
1/16 DATA	Test Unseen	41.0	15.3	0.191	0.087	0.050	0.032	0.832	0.424	0.652
TMN (Dinan et al., 2019)	CMU DoG	75.2	9.9	0.115	0.040	0.016	0.007	0.789	0.399	0.615
ITDD (Li et al., 2019)	CMU DoG	26.0	10.4	0.095	0.036	0.017	0.009	0.748	0.390	0.587
FULL DATA	CMU DoG	54.4	10.7	0.150	0.057	0.025	0.012	0.809	0.413	0.633
1/2 DATA	CMU DoG	57.0	10.4	0.142	0.052	0.022	0.010	0.808	0.414	0.635
1/4 DATA	CMU DoG	61.7	10.5	0.131	0.046	0.019	0.009	0.781	0.402	0.613
1/8 DATA	CMU DoG	67.6	10.2	0.121	0.044	0.019	0.009	0.787	0.407	0.622

所提出的模型在 Wizard of Wikipedia 和 CMU DoG 基准上，使用至多 1/8 的训练数据就达到了最先进水平。
在 Wizard 上，模型在域外文档上显著优于基线，尽管使用的训练数据要少得多；在域内保持具有竞争力。
模型在对域外知识具有强泛化能力的同时，随着训练数据的减少，保持稳健表现。
大多数参数的预训练对低资源 grounding 至关重要；移除预训练会降低性能，尤其是在域外数据上。
在数据充足时对预训练参数进行微调有帮助，但在极低资源设置下可能有害，支持固定预训练参数、仅对少量子集进行自适应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。