QUICK REVIEW

[论文解读] Improving Semantic Parsing for Task Oriented Dialog

Arash Einolghozati, Panupong Pasupat|arXiv (Cornell University)|Feb 15, 2019

Topic Modeling参考文献 25被引用 25

一句话总结

该论文通过引入集成方法、上下文嵌入（ELMo）以及基于语言模型的重排序，改进了任务导向对话的语义解析，纠正了分层意图-槽位解析中的不同错误类型。最佳模型结合了所有三种技术，在TOP数据集上实现了33%的错误率降低，并以87.25%的精确匹配准确率创下新SOTA记录。

ABSTRACT

Semantic parsing using hierarchical representations has recently been proposed for task oriented dialog with promising results [Gupta et al 2018]. In this paper, we present three different improvements to the model: contextualized embeddings, ensembling, and pairwise re-ranking based on a language model. We taxonomize the errors possible for the hierarchical representation, such as wrong top intent, missing spans or split spans, and show that the three approaches correct different kinds of errors. The best model combines the three techniques and gives 6.4% better exact match accuracy than the state-of-the-art, with an error reduction of 33%, resulting in a new state-of-the-art result on the Task Oriented Parsing (TOP) dataset.

研究动机与目标

解决在任务导向对话系统中解析复杂、组合性自然语言查询的挑战。
通过纠正分层意图-槽位表示中的特定错误类型，将语义解析准确率提升至SOTA以上。
探究集成、上下文嵌入和语言模型重排序在减少解析错误方面的正交贡献。
为分层语义解析建立系统化的错误分类体系，以指导针对性的模型改进。
将多种技术整合为单一、高精度的解析模型，用于TOP数据集。

提出的方法

采用三种策略（多数投票、贪婪动作选择、解析器切换）对多个解析器进行集成，以利用模型多样性。
引入ELMo——一种深度上下文嵌入模型，以提升解析模型中的词表示学习能力。
使用预训练语言模型对解析器输出的top-k解析假设进行重排序，采用排序SVM选择最优解析结果。
以基于循环神经网络语法（RNNG）的移位-归约解析器作为基础模型，使用栈和缓冲区LSTM编码解析状态。
使用Adam优化、dropout和预训练词嵌入训练基础模型，并在推理时采用贪婪解码。
以级联方式结合各项技术：首先应用ELMo，然后进行集成，最后通过语言模型进行重排序，以实现最大性能提升。

实验结果

研究问题

RQ1不同错误类型（如错误的顶层意图、缺失片段或分裂片段）如何影响分层语义解析中的性能？
RQ2集成、上下文嵌入和语言模型重排序在多大程度上纠正了不同类型的解析错误？
RQ3考虑到这些技术具有正交的错误纠正模式，它们的改进效果能否被有效结合？
RQ4在TOP数据集上，结合所有三种技术所能达到的最大性能提升是多少？
RQ5ELMo的使用是否增强了语言模型重排序在解析流水线中的有效性？

主要发现

集成、ELMo和语言模型重排序的结合使TOP数据集上的错误率相比基础模型降低了33%。
表现最佳的模型实现了87.25%的精确匹配准确率，在TOP基准上创下新SOTA记录。
即使在ELMo和集成之后应用，语言模型重排序仍带来显著性能提升，扩展的SVM重排序策略表现最佳。
集成与ELMo的性能提升近乎正交，其联合效应使错误率降低28%。
错误分析证实，每项技术均纠正了不同的解析错误类型，验证了错误分类体系的有效性。
LM重排序方法在应用于ELMo增强模型时仍保持显著性能增益，表明其兼容性与叠加优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。