Skip to main content
QUICK REVIEW

[论文解读] Towards better decoding and language model integration in sequence to sequence models

Jan Chorowski, Navdeep Jaitly|arXiv (Cornell University)|Dec 8, 2016
Speech Recognition and Synthesis参考文献 27被引用 58
一句话总结

本文通过在注意力机制的序列到序列(seq2seq)模型中引入标签平滑和覆盖惩罚,改进了语音识别中的解码与语言模型集成。该方法减少了模型的过度自信和转录不完整问题,在Wall Street Journal数据集上实现了无需语言模型时10.6%的WER,使用三元语言模型时达到6.7%的WER。

ABSTRACT

The recently proposed Sequence-to-Sequence (seq2seq) framework advocates replacing complex data processing pipelines, such as an entire automatic speech recognition system, with a single neural network trained in an end-to-end fashion. In this contribution, we analyse an attention-based seq2seq speech recognition system that directly transcribes recordings into characters. We observe two shortcomings: overconfidence in its predictions and a tendency to produce incomplete transcriptions when language models are used. We propose practical solutions to both problems achieving competitive speaker independent word error rates on the Wall Street Journal dataset: without separate language models we reach 10.6% WER, while together with a trigram language model, we reach 6.7% WER.

研究动机与目标

  • 解决基于注意力机制的seq2seq模型在语音识别中的过度自信和转录不完整问题。
  • 通过在训练过程中正则化模型预测,提升泛化能力和解码质量。
  • 在不损害转录完整性的前提下,有效集成外部语言模型。
  • 通过覆盖惩罚优化束搜索解码,减少对重复帧的注意力过度使用。
  • 展示与强基线模型(如CTC和DNN-HMM系统)相当的性能表现。

提出的方法

  • 在训练期间对目标分布应用单频和时间平滑,以降低模型的过度自信。
  • 在束搜索过程中引入覆盖惩罚,以惩罚对已关注帧的注意力过度使用。
  • 使用可调束宽、语言模型权重和覆盖阈值的束搜索解码器,实现最优假设选择。
  • 通过在先前注意力权重上应用卷积滤波器,改进注意力对齐的稳定性。
  • 使用带标签平滑的交叉熵损失和学习率调度的ADAM优化器进行模型训练。
  • 在训练期间应用权重噪声和权重衰减作为额外的正则化技术。

实验结果

研究问题

  • RQ1如何缓解seq2seq模型预测中的过度自信,以提升解码多样性?
  • RQ2标签平滑对端到端语音识别中的WER和模型泛化能力有何影响?
  • RQ3在束搜索中引入覆盖惩罚,如何减少转录不完整和注意力重复问题?
  • RQ4能否通过简单集成语言模型与seq2seq模型,在不增加架构复杂度的前提下实现具有竞争力的性能?
  • RQ5局部归一化结合正则化在多大程度上优于全局归一化或基于网格的训练方法?

主要发现

  • 在未使用外部语言模型的情况下,标签平滑将WSJ eval92集上的WER从14.2%降低至10.6%。
  • 在使用三元语言模型时,模型在eval92集上达到6.7%的WER,与最先进的DNN-HMM和CTC集成系统相当。
  • 覆盖惩罚显著提升了转录的完整性,减少了因注意力跳过或重复导致的错误。
  • 时间平滑(相邻词元)优于单频平滑,在语言建模下于dev93集达到9.7%的WER。
  • 模型仅使用660万参数即取得具有竞争力的结果,相较于更深的架构展现出更高的效率。
  • 经过调优的束搜索参数(束宽200,λ=0.5,γ=1.5,τ=0.5)对于在语言模型下实现最优性能至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。