QUICK REVIEW

[论文解读] Contextual ASR Adaptation for Conversational Agents

Anirudh Raju, Behnam Hedayatnia|arXiv (Cornell University)|Jun 26, 2018

Speech Recognition and Synthesis被引用 1

一句话总结

本文提出一种基于深度神经网络（DNN）的方法，通过动态预测上下文相关的语言模型（LM）插值权重，实现对话代理自动语音识别（ASR）中语言模型的自适应。该方法利用用户-代理交互上下文（如应用类型或主题）信息，通过主题分类器实现，相对词错误率（WER）提升达3%（单次解码）和6%（两次解码），命名实体识别性能最高提升15%。

ABSTRACT

Statistical language models (LM) play a key role in Automatic Speech Recognition (ASR) systems used by conversational agents. These ASR systems should provide a high accuracy under a variety of speaking styles, domains, vocabulary and argots. In this paper, we present a DNN-based method to adapt the LM to each user-agent interaction based on generalized contextual information, by predicting an optimal, context-dependent set of LM interpolation weights. We show that this framework for contextual adaptation provides accuracy improvements under different possible mixture LM partitions that are relevant for both (1) Goal-oriented conversational agents where it's natural to partition the data by the requested application and for (2) Non-goal oriented conversational agents where the data can be partitioned using topic labels that come from predictions of a topic classifier. We obtain a relative WER improvement of 3% with a 1-pass decoding strategy and 6% in a 2-pass decoding framework, over an unadapted model. We also show up to a 15% relative improvement in recognizing named entities which is of significant value for conversational ASR systems.

研究动机与目标

在多样的语速、领域和词汇环境下提升对话代理的ASR准确率。
解决在多样化用户交互和上下文变化下维持高识别准确率的挑战。
开发一种动态语言模型自适应框架，根据实时上下文线索调整LM权重。
在目标导向和非目标导向的对话代理场景中评估该方法。
显著提升词错误率（WER）和命名实体识别性能。

提出的方法

训练一个深度神经网络（DNN），根据用户-代理交互的上下文特征，预测语言模型混合的最优插值权重。
上下文信息来源于特定应用的划分（针对目标导向型代理）或由主题分类器预测的主题标签（针对非目标导向型代理）。
该方法采用广义框架，针对每个用户回合动态调整LM插值权重，提升模型与当前上下文的相关性。
该方法支持单次解码和两次解码策略，后者可实现迭代优化。
DNN以上下文嵌入为输入，输出预训练语言模型的加权组合。
该框架端到端训练，以最小化上下文相关训练数据上的WER。

实验结果

研究问题

RQ1上下文感知的LM自适应是否能提升在多样化语速和领域下的对话代理ASR准确率？
RQ2与静态未自适应模型相比，基于DNN的LM插值权重预测在降低WER方面的有效性如何？
RQ3该方法是否在命名实体识别方面取得更大提升，而命名实体识别是对话ASR中的关键组件？
RQ4在所提出的框架中，单次解码与两次解码策略的性能差异如何？
RQ5基于分类器的主题上下文能否有效引导非目标导向对话中的LM自适应？

主要发现

所提方法在未自适应模型基础上，采用单次解码策略，实现相对词错误率（WER）降低3%。
采用两次解码框架时，相对WER降低达6%，表明迭代优化具有显著优势。
系统在命名实体识别方面最高实现15%的相对性能提升，凸显其在任务关键型ASR组件中的价值。
该方法通过利用应用或主题相关的上下文，有效适应目标导向和非目标导向的对话代理。
基于DNN的插值权重预测在多样化交互上下文中始终一致地提升识别准确率。
该框架在适应实时用户交互上下文方面表现出鲁棒性和可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。