QUICK REVIEW

[论文解读] Joint Online Spoken Language Understanding and Language Modeling with Recurrent Neural Networks

Bing Liu, Ian Lane|arXiv (Cornell University)|Sep 6, 2016

Speech and dialogue systems参考文献 17被引用 22

一句话总结

本文提出了一种条件RNN模型，通过在单词到达时实时更新意图预测和槽位填充，联合执行在线语音语言理解（SLU）和语言模型构建。该模型利用循环意图和槽位标签上下文，使语言模型困惑度降低11.8%，意图检测错误率相对独立训练降低22.3%，在噪声ASR环境下表现出强鲁棒性。

ABSTRACT

Speaker intent detection and semantic slot filling are two critical tasks in spoken language understanding (SLU) for dialogue systems. In this paper, we describe a recurrent neural network (RNN) model that jointly performs intent detection, slot filling, and language modeling. The neural network model keeps updating the intent estimation as word in the transcribed utterance arrives and uses it as contextual features in the joint model. Evaluation of the language model and online SLU model is made on the ATIS benchmarking data set. On language modeling task, our joint model achieves 11.8% relative reduction on perplexity comparing to the independent training language model. On SLU tasks, our joint model outperforms the independent task training model by 22.3% on intent detection error rate, with slight degradation on slot filling F1 score. The joint model also shows advantageous performance in the realistic ASR settings with noisy speech input.

研究动机与目标

解决现有联合SLU模型依赖完整话语输入的局限性，使其不适合实时在线应用。
通过在单一RNN框架内联合训练SLU和语言模型组件，提升语言建模和意图检测性能。
探索将循环意图和槽位标签状态作为上下文特征，用于在线ASR系统中的下一个词预测。
在模拟实际部署场景的真实噪声语音输入条件下，评估模型的鲁棒性。

提出的方法

设计了一种条件RNN架构，以逐字方式处理输入词序列，随着每个词的到达实时更新意图和槽位预测。
模型引入了编码意图和槽位标签信息的循环隐藏状态，将其用作下一个词预测的上下文向量。
对意图向量对上下文向量的贡献应用调度缩放机制，随时间逐步增强其影响，以提升语言建模性能。
模型整合了局部和循环上下文特征：局部意图和槽位标签与RNN隐藏状态拼接，而循环状态则捕捉长期依赖关系。
联合模型采用端到端训练，同时优化语言建模和SLU目标，任务间共享参数。
使用ATIS基准数据集对模型进行评估，并通过消融实验分析上下文类型和训练调度的影响，以分离各组件的贡献。

实验结果

研究问题

RQ1与独立训练的分离模型相比，联合RNN模型是否能在语言建模和意图检测性能上实现更优表现？
RQ2在实时在线SLU和语言建模中，引入循环意图和槽位标签状态如何提升性能？
RQ3对上下文向量中意图向量贡献的调度机制，对语言建模困惑度有何影响？
RQ4在真实噪声语音输入条件下，特别是ASR重排序流水线中，联合模型表现如何？

主要发现

与独立训练的语言模型相比，联合模型在ATIS测试集上的语言建模困惑度相对降低11.8%。
与独立训练模型相比，联合模型将意图检测错误率降低了22.3%，显著提升了在线意图分类性能。
引入循环槽位标签上下文可提升槽位填充的F1分数，并使意图分类错误率相对降低16.8%，表明建模标签依赖关系具有显著优势。
同时包含循环意图和槽位标签上下文的模型取得最佳整体性能，在保持语言建模和意图检测性能提升的同时，槽位F1略有下降。
在噪声ASR环境下，联合训练的RNN语言模型重排序性能优于5-gram语言模型和独立训练的RNN语言模型重排序，将WER降低至12.59%，意图错误率降低至4.44%。
在真实ASR条件下，模型表现出一致的性能增益，使用ASR输出而非真实文本时，意图错误率仅增加2.87%，F1下降7.77%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。