[论文解读] Toward Scalable Neural Dialogue State Tracking Model
本文提出一种全局条件编码器(Globally-Conditioned Encoder, GCE)模型,通过用单个受槽类型嵌入条件控制的全局循环网络替代GLAD模型中的槽特定循环网络,从而降低神经对话状态追踪的延迟。该模型在单领域和多领域基准测试中均达到最先进性能,与GLAD模型相比,训练和推理延迟平均降低35%,并在Multi-WoZ数据集上提升了联合目标和轮次请求的准确率。
The latency in the current neural based dialogue state tracking models prohibits them from being used efficiently for deployment in production systems, albeit their highly accurate performance. This paper proposes a new scalable and accurate neural dialogue state tracking model, based on the recently proposed Global-Local Self-Attention encoder (GLAD) model by Zhong et al. which uses global modules to share parameters between estimators for different types (called slots) of dialogue states, and uses local modules to learn slot-specific features. By using only one recurrent networks with global conditioning, compared to (1 + \# slots) recurrent networks with global and local conditioning used in the GLAD model, our proposed model reduces the latency in training and inference times by $35\%$ on average, while preserving performance of belief state tracking, by $97.38\%$ on turn request and $88.51\%$ on joint goal and accuracy. Evaluation on Multi-domain dataset (Multi-WoZ) also demonstrates that our model outperforms GLAD on turn inform and joint goal accuracy.
研究动机与目标
- 为解决最先进神经对话状态追踪模型的高延迟问题,该问题阻碍了其在生产系统中的部署。
- 通过消除GLAD中使用的槽特定循环网络,降低序列建模的计算复杂度。
- 在显著降低推理和训练时间的同时,保持或提升追踪准确率。
- 将改进后的架构推广至多领域对话状态追踪场景。
提出的方法
- 用一个受槽类型嵌入条件控制的单一共享循环网络,替代GLAD中每个槽特定的循环网络和自注意力网络。
- 使用全局条件编码器计算用户话语和系统动作的表示,该编码器在所有槽之间共享参数。
- 使用注意力机制计算话语表示与槽值候选之间的相似度得分。
- 通过可学习的加权求和将基于用户话语和系统动作的得分合并,并通过Sigmoid函数进行归一化。
- 使用交叉熵损失在槽值预测任务上端到端训练模型。
- 在不改变架构的前提下,将相同架构应用于单领域(WoZ)和多领域(Multi-WoZ)设置。
实验结果
研究问题
- RQ1一个单一的、全局条件化的循环编码器是否能在不损失追踪准确率的前提下替代多个槽特定的编码器?
- RQ2全局参数共享在多大程度上能降低神经对话状态追踪中的训练和推理延迟?
- RQ3所提出的模型是否能有效泛化至多领域对话状态追踪基准?
- RQ4在联合目标和轮次级别准确率方面,所提出模型与GLAD相比表现如何?
主要发现
- 在WoZ数据集上,GCE模型实现88.51%的联合目标准确率和97.38%的轮次请求准确率,略优于GLAD(88.1%和97.1%)。
- 该模型平均将训练时间减少35%,推理时间也减少35%,批量处理时间从训练期间的1.78秒/批降至1.16秒/批。
- 在Multi-WoZ数据集上,GCE模型将轮次信息准确率提升至67.88%(GLAD为66.89%),联合目标准确率提升至35.58%(GLAD为35.57%)。
- 通过在槽之间共享参数,GCE模型在降低模型复杂度的同时保持了高性能。
- 该模型在无需领域特定修改的情况下,展现出对多领域场景的良好泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。