QUICK REVIEW

[论文解读] "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in Conversational Agents.

Ashish Shenoy, Sravan Bodapati|arXiv (Cornell University)|Apr 21, 2021

Topic Modeling被引用 2

一句话总结

本文提出了一种上下文感知的神经语言模型（NLM），用于在任务导向对话中进行自动语音识别（ASR）重排序，通过整合使用LSTM和Transformer-XL架构的多轮对话历史，提升性能。该方法通过注意力机制关注词汇元数据、基于特征的增强（引入对话行为）以及与预训练掩码语言模型编码的融合，实现了相对于非上下文基线模型1.6%–9.1%的相对WER降低，以及槽位标注任务中4%的F1分数提升。

ABSTRACT

Neural Language Models (NLM), when trained and evaluated with context spanning multiple utterances, have been shown to consistently outperform both conventional n-gram language models and NLMs that use limited context. In this paper, we investigate various techniques to incorporate turn based context history into both recurrent (LSTM) and Transformer-XL based NLMs. For recurrent based NLMs, we explore context carry over mechanism and feature based augmentation, where we incorporate other forms of contextual information such as bot response and system dialogue acts as classified by a Natural Language Understanding (NLU) model. To mitigate the sharp nearby, fuzzy far away problem with contextual NLM, we propose the use of attention layer over lexical metadata to improve feature based augmentation. Additionally, we adapt our contextual NLM towards user provided on-the-fly speech patterns by leveraging encodings from a large pre-trained masked language model and performing fusion with a Transformer-XL based NLM. We test our proposed models using N-best rescoring of ASR hypotheses of task-oriented dialogues and also evaluate on downstream NLU tasks such as intent classification and slot labeling. The best performing model shows a relative WER between 1.6% and 9.1% and a slot labeling F1 score improvement of 4% over non-contextual baselines.

研究动机与目标

通过利用融合多轮对话历史的长上下文神经语言模型，提升任务导向对话中的ASR重排序性能。
通过引入对词汇元数据的注意力机制，解决上下文NLM中的“近处清晰、远处模糊”问题，实现更优的上下文加权。
通过整合来自NLU模型的结构化对话信息（如机器人回复和系统对话行为），增强基于特征的增强效果。
通过将预训练掩码语言模型的表示与基于Transformer-XL的NLM融合，使上下文NLM适应用户特定的语音模式。
不仅在ASR指标上评估所提模型，还同时在下游NLU任务（如意图分类和槽位标注）上进行评估。

提出的方法

将循环神经网络（LSTM）和基于Transformer-XL的NLM适配为可处理跨越多轮对话的上下文，实现长距离依赖建模。
提出一种对词汇元数据（如对话行为、系统回复）的注意力机制，动态加权上下文特征，缓解“模糊远端”问题。
通过预训练掩码语言模型（如BERT）的嵌入表示增强NLM输入，以捕捉用户特定的语音模式并提升鲁棒性。
在不微调基础NLM的前提下，通过晚期融合方式将预训练掩码语言模型的编码与基于Transformer-XL的NLM编码结合，以增强上下文表征。
采用N-best ASR候选重排序方法评估模型性能，解码过程由上下文NLM得分引导。
在ASR（WER）和下游NLU任务（意图分类、槽位标注）上同时评估最终模型，以验证其泛化能力。

实验结果

研究问题

RQ1将多轮对话上下文整合进NLM是否能显著降低任务导向对话中ASR的词错误率（WER）？
RQ2与标准上下文聚合方法相比，对词汇元数据的注意力机制在建模长上下文依赖方面有何改进？
RQ3基于对话行为和机器人回复的特征增强在ASR重排序中对NLM性能的提升程度如何？
RQ4与预训练掩码语言模型编码融合是否能提升端到端ASR系统对用户特定语音模式的鲁棒性？
RQ5所提出的上下文NLM架构是否在ASR和下游NLU任务中均表现出一致的性能提升？

主要发现

最佳性能模型在ASR重排序中相比非上下文基线模型，实现了1.6%至9.1%的相对词错误率（WER）降低。
与非上下文NLM基线相比，槽位标注的F1分数提升了4个百分点，表明对对话语义理解能力得到增强。
对词汇元数据的注意力机制显著缓解了“模糊远端”问题，使长轮次对话中的上下文加权更加准确。
基于对话行为和机器人回复的特征增强显著提升了NLM性能，尤其在复杂、多轮交互场景中表现突出。
与预训练掩码语言模型编码的融合增强了对用户特定语音模式的鲁棒性，尤其在低资源或分布外设置下效果明显。
所提出的上下文NLM在ASR和下游NLU任务中均展现出一致的性能增益，验证了其在对话式AI系统中的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。